Инстансы G7e: Новая эра для инференса ИИ на SageMaker
Ландшафт генеративного ИИ развивается беспрецедентными темпами, постоянно стимулируя спрос на более мощную, гибкую и экономически эффективную инфраструктуру. Сегодня Code Velocity с радостью сообщает о значительном достижении от AWS: общей доступности инстансов G7e на Amazon SageMaker AI. Работающие на GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, эти новые инстансы призваны переопределить стандарты для инференса генеративного ИИ, предлагая разработчикам и предприятиям беспрецедентную производительность и объем памяти.
Amazon SageMaker AI — это полностью управляемый сервис, который предоставляет разработчикам и специалистам по данным инструменты для создания, обучения и развертывания моделей машинного обучения в масштабе. Внедрение инстансов G7e знаменует собой поворотный момент для рабочих нагрузок генеративного ИИ на этой платформе. Эти инстансы используют передовые GPU NVIDIA RTX PRO 6000 Blackwell, каждый из которых обладает впечатляющими 96 ГБ памяти GDDR7. Такое значительное увеличение объема памяти позволяет развертывать значительно более крупные базовые модели (FM) непосредственно на SageMaker AI, удовлетворяя критическую потребность в продвинутых ИИ-приложениях.
Организации теперь могут развертывать модели, такие как GPT-OSS-120B, Nemotron-3-Super-120B-A12B (вариант NVFP4) и Qwen3.5-35B-A3B, с поразительной эффективностью. Инстанс G7e.2xlarge, оснащенный одним GPU, может размещать модели с 35 миллиардами параметров, в то время как G7e.48xlarge, с восемью GPU, масштабируется до моделей с 300 миллиардами параметров. Эта гибкость преобразуется в ощутимые преимущества: снижение операционной сложности, уменьшение задержки и существенную экономию средств для рабочих нагрузок инференса.
Раскрываем поколенческий скачок производительности G7e
Инстансы G7e представляют собой монументальный скачок по сравнению со своими предшественниками, G6e и G5, обеспечивая до 2.3 раз более высокую производительность инференса по сравнению с G6e. Технические характеристики подчеркивают это поколенческое продвижение. Каждый GPU G7e обеспечивает потрясающую пропускную способность 1597 ГБ/с, фактически удваивая объем памяти на GPU по сравнению с G6e и увеличивая его в четыре раза по сравнению с G5. Кроме того, сетевые возможности значительно улучшены, масштабируясь до 1600 Гбит/с с EFA на самом большом размере G7e. Это 4-кратное увеличение по сравнению с G6e и 16-кратное по сравнению с G5 открывает потенциал для многоузлового инференса с низкой задержкой и сценариев тонкой настройки, ранее считавшихся непрактичными.
Вот сравнение, подчеркивающее прогресс между поколениями на уровне 8-GPU:
| Спецификация | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
|---|---|---|---|
| GPU | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| Память GPU на GPU | 24 ГБ GDDR6 | 48 ГБ GDDR6 | 96 ГБ GDDR7 |
| Общая память GPU | 192 ГБ | 384 ГБ | 768 ГБ |
| Пропускная способность памяти GPU | 600 ГБ/с на GPU | 864 ГБ/с на GPU | 1597 ГБ/с на GPU |
| vCPU | 192 | 192 | 192 |
| Системная память | 768 ГиБ | 1536 ГиБ | 2048 ГиБ |
| Пропускная способность сети | 100 Гбит/с | 400 Гбит/с | 1600 Гбит/с (EFA) |
| Локальное хранилище NVMe | 7.6 ТБ | 7.6 ТБ | 15.2 ТБ |
| Инференс по сравнению с G6e | Базовый уровень | ~1x | До 2.3x |
Благодаря колоссальным 768 ГБ совокупной памяти GPU на одном инстансе G7e, модели, которые когда-то требовали сложных многоузловых конфигураций на старых инстансах, теперь могут быть развернуты с удивительной простотой. Это значительно снижает межузловую задержку и операционные издержки. В сочетании с поддержкой точности FP4 через тензорные ядра пятого поколения и NVIDIA GPUDirect RDMA поверх EFAv4, инстансы G7e однозначно разработаны для требовательных LLM, мультимодального ИИ и сложных агентских рабочих процессов инференса на AWS.
Разнообразные варианты использования генеративного ИИ процветают на G7e
Мощное сочетание плотности памяти, пропускной способности и продвинутых сетевых возможностей делает инстансы G7e идеальными для широкого спектра современных рабочих нагрузок генеративного ИИ. От улучшения разговорного ИИ до обеспечения сложных физических симуляций, G7e предлагает ощутимые преимущества:
- Чат-боты и разговорный ИИ: Низкое время до первого токена (TTFT) и высокая пропускная способность инстансов G7e обеспечивают отзывчивый и бесшовный интерактивный опыт, даже при высокой одновременной пользовательской нагрузке. Это критически важно для поддержания вовлеченности и удовлетворенности пользователей в интерактивных взаимодействиях с ИИ в реальном времени.
- Агентские рабочие процессы и вызов инструментов: Для конвейеров генерации с дополненным извлечением (RAG) и агентских систем быстрая инъекция контекста из хранилищ извлечения имеет первостепенное значение. 4-кратное увеличение пропускной способности ЦП-GPU в инстансах G7e делает их исключительно эффективными для этих критически важных операций, позволяя создавать более интеллектуальные и динамичные ИИ-агенты.
- Генерация текста, суммаризация и инференс с длинным контекстом: Благодаря 96 ГБ памяти на GPU, инстансы G7e легко справляются с большими KV-кэшами. Это позволяет использовать расширенные контексты документов, значительно уменьшая необходимость в усечении текста и способствуя более богатому и тонкому рассуждению над обширными входными данными.
- Генерация изображений и модели зрения: Если предыдущие поколения инстансов часто сталкивались с ошибками нехватки памяти при работе с более крупными мультимодальными моделями, удвоенный объем памяти G7e изящно устраняет эти ограничения, открывая путь для более сложных и высокоразрешающих приложений ИИ для изображений и зрения.
- Физический ИИ и научные вычисления: Помимо традиционного генеративного ИИ, вычисления поколения Blackwell, поддержка FP4 и возможности пространственных вычислений (включая DLSS 4.0 и тензорные ядра 4-го поколения) G7e расширяют его применимость до цифровых двойников, 3D-моделирования и продвинутого инференса моделей физического ИИ, открывая новые горизонты в научных исследованиях и промышленных приложениях.
Оптимизированное развертывание и сравнительный анализ производительности
Развертывание моделей генеративного ИИ на инстансах G7e через Amazon SageMaker AI спроектировано как простой процесс. Пользователи могут получить доступ к примеру ноутбука здесь, который упрощает этот процесс. Предварительные условия обычно включают учетную запись AWS, роль IAM для доступа к SageMaker и либо Amazon SageMaker Studio, либо инстанс ноутбука SageMaker для среды разработки. Важно, чтобы пользователи запросили соответствующую квоту для ml.g7e.2xlarge или более крупных инстансов для использования конечных точек SageMaker AI через консоль Service Quotas.
Чтобы продемонстрировать значительные приросты производительности, AWS провела сравнительный анализ Qwen3-32B (BF16) на инстансах G6e и G7e. Рабочая нагрузка включала приблизительно 1000 входных токенов и 560 выходных токенов на запрос, имитируя обычные задачи суммаризации документов. Обе конфигурации использовали нативный контейнер vLLM с включенным кэшированием префиксов, что обеспечило сопоставимое сравнение.
Результаты впечатляют. В то время как базовый показатель G6e (ml.g6e.12xlarge с 4x L40S GPU по $13.12/час) демонстрировал высокую пропускную способность на запрос, G7e (ml.g7e.2xlarge с 1x RTX PRO 6000 Blackwell по $4.20/час) показывает кардинально иную картину затрат. При производственной параллельности (C=32) G7e достиг поразительных $0.79 за миллион выходных токенов. Это представляет собой 2.6-кратное снижение затрат по сравнению с $2.06 у G6e, обусловленное более низкой почасовой ставкой G7e и его способностью поддерживать стабильную пропускную способность под нагрузкой, доказывая, что высокая производительность не обязательно должна стоить дорого.
Будущее экономически эффективного инференса генеративного ИИ
Внедрение инстансов G7e на Amazon SageMaker AI — это не просто инкрементное обновление; это стратегический шаг AWS к демократизации доступа к высокопроизводительному генеративному ИИ. Объединяя необработанную мощность GPU NVIDIA RTX PRO 6000 Blackwell с возможностями масштабирования и управления SageMaker, AWS дает организациям всех размеров возможность развертывать более крупные и сложные модели ИИ с беспрецедентной эффективностью и экономичностью. Это развитие гарантирует, что достижения в области генеративного ИИ могут быть воплощены в практические, готовые к производству приложения в широком спектре отраслей, укрепляя позицию SageMaker AI как ведущей платформы для инноваций в области ИИ.
Часто задаваемые вопросы
What are G7e instances and how do they benefit generative AI inference?
Which NVIDIA GPU powers the new G7e instances, and what are its key features?
How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?
What types of generative AI workloads are best suited for deployment on G7e instances?
What is the cost efficiency of G7e instances compared to G6e for generative AI inference?
What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?
What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?
Будьте в курсе
Получайте последние новости ИИ на почту.
