Инференс генеративного ИИ: Ускорение на SageMaker с инстансами G7e

Инстансы G7e: Новая эра для инференса ИИ на SageMaker

Ландшафт генеративного ИИ развивается беспрецедентными темпами, постоянно стимулируя спрос на более мощную, гибкую и экономически эффективную инфраструктуру. Сегодня Code Velocity с радостью сообщает о значительном достижении от AWS: общей доступности инстансов G7e на Amazon SageMaker AI. Работающие на GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, эти новые инстансы призваны переопределить стандарты для инференса генеративного ИИ, предлагая разработчикам и предприятиям беспрецедентную производительность и объем памяти.

Amazon SageMaker AI — это полностью управляемый сервис, который предоставляет разработчикам и специалистам по данным инструменты для создания, обучения и развертывания моделей машинного обучения в масштабе. Внедрение инстансов G7e знаменует собой поворотный момент для рабочих нагрузок генеративного ИИ на этой платформе. Эти инстансы используют передовые GPU NVIDIA RTX PRO 6000 Blackwell, каждый из которых обладает впечатляющими 96 ГБ памяти GDDR7. Такое значительное увеличение объема памяти позволяет развертывать значительно более крупные базовые модели (FM) непосредственно на SageMaker AI, удовлетворяя критическую потребность в продвинутых ИИ-приложениях.

Организации теперь могут развертывать модели, такие как GPT-OSS-120B, Nemotron-3-Super-120B-A12B (вариант NVFP4) и Qwen3.5-35B-A3B, с поразительной эффективностью. Инстанс G7e.2xlarge, оснащенный одним GPU, может размещать модели с 35 миллиардами параметров, в то время как G7e.48xlarge, с восемью GPU, масштабируется до моделей с 300 миллиардами параметров. Эта гибкость преобразуется в ощутимые преимущества: снижение операционной сложности, уменьшение задержки и существенную экономию средств для рабочих нагрузок инференса.

Раскрываем поколенческий скачок производительности G7e

Инстансы G7e представляют собой монументальный скачок по сравнению со своими предшественниками, G6e и G5, обеспечивая до 2.3 раз более высокую производительность инференса по сравнению с G6e. Технические характеристики подчеркивают это поколенческое продвижение. Каждый GPU G7e обеспечивает потрясающую пропускную способность 1597 ГБ/с, фактически удваивая объем памяти на GPU по сравнению с G6e и увеличивая его в четыре раза по сравнению с G5. Кроме того, сетевые возможности значительно улучшены, масштабируясь до 1600 Гбит/с с EFA на самом большом размере G7e. Это 4-кратное увеличение по сравнению с G6e и 16-кратное по сравнению с G5 открывает потенциал для многоузлового инференса с низкой задержкой и сценариев тонкой настройки, ранее считавшихся непрактичными.

Вот сравнение, подчеркивающее прогресс между поколениями на уровне 8-GPU:

Спецификация	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
Память GPU на GPU	24 ГБ GDDR6	48 ГБ GDDR6	96 ГБ GDDR7
Общая память GPU	192 ГБ	384 ГБ	768 ГБ
Пропускная способность памяти GPU	600 ГБ/с на GPU	864 ГБ/с на GPU	1597 ГБ/с на GPU
vCPU	192	192	192
Системная память	768 ГиБ	1536 ГиБ	2048 ГиБ
Пропускная способность сети	100 Гбит/с	400 Гбит/с	1600 Гбит/с (EFA)
Локальное хранилище NVMe	7.6 ТБ	7.6 ТБ	15.2 ТБ
Инференс по сравнению с G6e	Базовый уровень	~1x	До 2.3x

Благодаря колоссальным 768 ГБ совокупной памяти GPU на одном инстансе G7e, модели, которые когда-то требовали сложных многоузловых конфигураций на старых инстансах, теперь могут быть развернуты с удивительной простотой. Это значительно снижает межузловую задержку и операционные издержки. В сочетании с поддержкой точности FP4 через тензорные ядра пятого поколения и NVIDIA GPUDirect RDMA поверх EFAv4, инстансы G7e однозначно разработаны для требовательных LLM, мультимодального ИИ и сложных агентских рабочих процессов инференса на AWS.

Разнообразные варианты использования генеративного ИИ процветают на G7e

Мощное сочетание плотности памяти, пропускной способности и продвинутых сетевых возможностей делает инстансы G7e идеальными для широкого спектра современных рабочих нагрузок генеративного ИИ. От улучшения разговорного ИИ до обеспечения сложных физических симуляций, G7e предлагает ощутимые преимущества:

Чат-боты и разговорный ИИ: Низкое время до первого токена (TTFT) и высокая пропускная способность инстансов G7e обеспечивают отзывчивый и бесшовный интерактивный опыт, даже при высокой одновременной пользовательской нагрузке. Это критически важно для поддержания вовлеченности и удовлетворенности пользователей в интерактивных взаимодействиях с ИИ в реальном времени.
Агентские рабочие процессы и вызов инструментов: Для конвейеров генерации с дополненным извлечением (RAG) и агентских систем быстрая инъекция контекста из хранилищ извлечения имеет первостепенное значение. 4-кратное увеличение пропускной способности ЦП-GPU в инстансах G7e делает их исключительно эффективными для этих критически важных операций, позволяя создавать более интеллектуальные и динамичные ИИ-агенты.
Генерация текста, суммаризация и инференс с длинным контекстом: Благодаря 96 ГБ памяти на GPU, инстансы G7e легко справляются с большими KV-кэшами. Это позволяет использовать расширенные контексты документов, значительно уменьшая необходимость в усечении текста и способствуя более богатому и тонкому рассуждению над обширными входными данными.
Генерация изображений и модели зрения: Если предыдущие поколения инстансов часто сталкивались с ошибками нехватки памяти при работе с более крупными мультимодальными моделями, удвоенный объем памяти G7e изящно устраняет эти ограничения, открывая путь для более сложных и высокоразрешающих приложений ИИ для изображений и зрения.
Физический ИИ и научные вычисления: Помимо традиционного генеративного ИИ, вычисления поколения Blackwell, поддержка FP4 и возможности пространственных вычислений (включая DLSS 4.0 и тензорные ядра 4-го поколения) G7e расширяют его применимость до цифровых двойников, 3D-моделирования и продвинутого инференса моделей физического ИИ, открывая новые горизонты в научных исследованиях и промышленных приложениях.

Оптимизированное развертывание и сравнительный анализ производительности

Развертывание моделей генеративного ИИ на инстансах G7e через Amazon SageMaker AI спроектировано как простой процесс. Пользователи могут получить доступ к примеру ноутбука здесь, который упрощает этот процесс. Предварительные условия обычно включают учетную запись AWS, роль IAM для доступа к SageMaker и либо Amazon SageMaker Studio, либо инстанс ноутбука SageMaker для среды разработки. Важно, чтобы пользователи запросили соответствующую квоту для ml.g7e.2xlarge или более крупных инстансов для использования конечных точек SageMaker AI через консоль Service Quotas.

Чтобы продемонстрировать значительные приросты производительности, AWS провела сравнительный анализ Qwen3-32B (BF16) на инстансах G6e и G7e. Рабочая нагрузка включала приблизительно 1000 входных токенов и 560 выходных токенов на запрос, имитируя обычные задачи суммаризации документов. Обе конфигурации использовали нативный контейнер vLLM с включенным кэшированием префиксов, что обеспечило сопоставимое сравнение.

Результаты впечатляют. В то время как базовый показатель G6e (ml.g6e.12xlarge с 4x L40S GPU по $13.12/час) демонстрировал высокую пропускную способность на запрос, G7e (ml.g7e.2xlarge с 1x RTX PRO 6000 Blackwell по $4.20/час) показывает кардинально иную картину затрат. При производственной параллельности (C=32) G7e достиг поразительных $0.79 за миллион выходных токенов. Это представляет собой 2.6-кратное снижение затрат по сравнению с $2.06 у G6e, обусловленное более низкой почасовой ставкой G7e и его способностью поддерживать стабильную пропускную способность под нагрузкой, доказывая, что высокая производительность не обязательно должна стоить дорого.

Будущее экономически эффективного инференса генеративного ИИ

Внедрение инстансов G7e на Amazon SageMaker AI — это не просто инкрементное обновление; это стратегический шаг AWS к демократизации доступа к высокопроизводительному генеративному ИИ. Объединяя необработанную мощность GPU NVIDIA RTX PRO 6000 Blackwell с возможностями масштабирования и управления SageMaker, AWS дает организациям всех размеров возможность развертывать более крупные и сложные модели ИИ с беспрецедентной эффективностью и экономичностью. Это развитие гарантирует, что достижения в области генеративного ИИ могут быть воплощены в практические, готовые к производству приложения в широком спектре отраслей, укрепляя позицию SageMaker AI как ведущей платформы для инноваций в области ИИ.

Первоисточник

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Часто задаваемые вопросы

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Будьте в курсе

Получайте последние новости ИИ на почту.