Генеративний AI-вивід: Прискорення на SageMaker за допомогою інстансів G7e

Інстанси G7e: Нова ера для AI-виводу на SageMaker

Ландшафт генеративного ШІ розвивається безпрецедентними темпами, стимулюючи постійний попит на більш потужну, гнучку та економічно ефективну інфраструктуру. Сьогодні Code Velocity раді повідомити про значне досягнення від AWS: загальну доступність інстансів G7e на Amazon SageMaker AI. Працюючи на GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, ці нові інстанси мають переосмислити стандарти для генеративного AI-виводу, пропонуючи розробникам та підприємствам неперевершену продуктивність та обсяг пам'яті.

Amazon SageMaker AI – це повністю керований сервіс, який надає розробникам та фахівцям з обробки даних інструменти для створення, навчання та розгортання моделей машинного навчання у масштабі. Впровадження інстансів G7e знаменує ключовий момент для робочих навантажень генеративного ШІ на цій платформі. Ці інстанси використовують передові GPU NVIDIA RTX PRO 6000 Blackwell, кожен з яких може похвалитися вражаючими 96 ГБ пам'яті GDDR7. Це значне збільшення пам'яті дозволяє розгортати значно більші фундаментальні моделі (ФМ) безпосередньо на SageMaker AI, задовольняючи критичну потребу для передових AI-додатків.

Організації тепер можуть розгортати моделі, такі як GPT-OSS-120B, Nemotron-3-Super-120B-A12B (варіант NVFP4) та Qwen3.5-35B-A3B з надзвичайною ефективністю. Інстанс G7e.2xlarge, що містить один GPU, може розміщувати моделі з 35 мільярдами параметрів, тоді як G7e.48xlarge, з вісьмома GPU, масштабується до моделей з 300 мільярдами параметрів. Ця гнучкість перетворюється на відчутні переваги: зниження операційної складності, меншу затримку та суттєву економію витрат для робочих навантажень виводу.

Розкриваємо поколіннєвий стрибок продуктивності G7e

Інстанси G7e представляють монументальний стрибок порівняно зі своїми попередниками, G6e та G5, забезпечуючи до 2.3 рази швидшу продуктивність виводу порівняно з G6e. Технічні характеристики підкреслюють це поколіннєве покращення. Кожен GPU G7e забезпечує приголомшливу пропускну здатність 1,597 ГБ/с, ефективно подвоюючи обсяг пам'яті на GPU G6e та учетверо збільшуючи його порівняно з G5. Крім того, мережеві можливості значно покращені, масштабуючись до 1,600 Гбіт/с з EFA на найбільшому розмірі G7e. Це 4-кратне збільшення порівняно з G6e та 16-кратне порівняно з G5 відкриває потенціал для багатонодового виводу з низькою затримкою та сценаріїв точного налаштування, які раніше вважалися непрактичними.

Ось порівняння, що висвітлює прогрес між поколіннями на рівні 8-GPU:

Специфікація	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
Пам'ять GPU на GPU	24 ГБ GDDR6	48 ГБ GDDR6	96 ГБ GDDR7
Загальна пам'ять GPU	192 ГБ	384 ГБ	768 ГБ
Пропускна здатність пам'яті GPU	600 ГБ/с на GPU	864 ГБ/с на GPU	1,597 ГБ/с на GPU
vCPU	192	192	192
Системна пам'ять	768 GiB	1,536 GiB	2,048 GiB
Пропускна здатність мережі	100 Гбіт/с	400 Гбіт/с	1,600 Гбіт/с (EFA)
Локальне NVMe сховище	7.6 ТБ	7.6 ТБ	15.2 ТБ
Вивід порівняно з G6e	Базовий рівень	~1x	До 2.3x

Завдяки колосальним 768 ГБ сукупної пам'яті GPU на одному інстансі G7e, моделі, які колись вимагали складних багатонодових конфігурацій на старіших інстансах, тепер можуть бути розгорнуті з надзвичайною простотою. Це значно зменшує міжнодову затримку та операційні накладні витрати. У поєднанні з підтримкою точності FP4 через Tensor Cores п'ятого покоління та NVIDIA GPUDirect RDMA через EFAv4, інстанси G7e однозначно розроблені для вимогливих LLM, мультимодального ШІ та складних агентних робочих процесів виводу на AWS.

Різноманітні варіанти використання генеративного ШІ процвітають на G7e

Надійна комбінація щільності пам'яті, пропускної здатності та розширених мережевих можливостей робить інстанси G7e ідеальними для широкого спектру сучасних робочих навантажень генеративного ШІ. Від покращення розмовного ШІ до живлення складних фізичних симуляцій, G7e пропонує відчутні переваги:

Чат-боти та розмовний ШІ: Низький час до першого токена (TTFT) та висока пропускна здатність інстансів G7e забезпечують чутливі та безперебійні інтерактивні взаємодії, навіть при великих одночасних навантаженнях користувачів. Це критично важливо для підтримки залученості та задоволеності користувачів у реальних AI-взаємодіях.
Агентні робочі процеси та робочі процеси з викликом інструментів: Для конвеєрів Retrieval Augmented Generation (RAG) та агентних систем швидке впровадження контексту зі сховищ пошуку є першочерговим. 4-кратне покращення пропускної здатності CPU-до-GPU в інстансах G7e робить їх винятково ефективними для цих критичних операцій, дозволяючи створювати більш інтелектуальні та динамічні AI-агенти.
Генерація тексту, резюмування та вивід з довгим контекстом: Завдяки 96 ГБ пам'яті на GPU, інстанси G7e майстерно обробляють великі Key-Value (KV) кеші. Це дозволяє використовувати розширені контексти документів, значно зменшуючи потребу в обрізанні тексту та сприяючи більш насиченому, нюансованому міркуванню над великими обсягами вхідних даних.
Генерація зображень та моделі комп'ютерного зору: Там, де інстанси попереднього покоління часто стикалися з помилками "недостатньо пам'яті" при роботі з більшими мультимодальними моделями, подвоєна ємність пам'яті G7e граціозно вирішує ці обмеження, відкриваючи шлях до більш складних та високороздільних програм AI для зображень та комп'ютерного зору.
Фізичний ШІ та наукові обчислення: Крім традиційного генеративного ШІ, обчислення покоління Blackwell, підтримка FP4 та можливості просторових обчислень G7e (включаючи DLSS 4.0 та 4-го покоління RT-ядер) розширюють його корисність до цифрових двійників, 3D-симуляції та передового фізичного AI-виводу моделей, відкриваючи нові горизонти в наукових дослідженнях та промислових додатках.

Оптимізоване розгортання та тестування продуктивності

Розгортання моделей генеративного ШІ на інстансах G7e через Amazon SageMaker AI розроблено таким чином, щоб бути простим. Користувачі можуть отримати доступ до зразкового блокнота тут, який спрощує процес. Передумови зазвичай включають обліковий запис AWS, роль IAM для доступу до SageMaker та Amazon SageMaker Studio або інстанс SageMaker notebook для середовища розробки. Важливо, що користувачі повинні запросити відповідну квоту для ml.g7e.2xlarge або більших інстансів для використання кінцевої точки SageMaker AI через консоль Service Quotas.

Щоб продемонструвати значні переваги у продуктивності, AWS протестувала Qwen3-32B (BF16) на інстансах G6e та G7e. Робоче навантаження включало приблизно 1,000 вхідних токенів та 560 вихідних токенів на запит, імітуючи типові завдання резюмування документів. Обидві конфігурації використовували нативний контейнер vLLM з увімкненим кешуванням префіксів, забезпечуючи порівняння 'яблука з яблуками'.

Результати вражаючі. Хоча базовий рівень G6e (ml.g6e.12xlarge з 4x L40S GPU за $13.12/год) демонстрував високу пропускну здатність на запит, G7e (ml.g7e.2xlarge з 1x RTX PRO 6000 Blackwell за $4.20/год) розповідає кардинально іншу історію вартості. При виробничій конкуренції (C=32), G7e досяг дивовижних $0.79 за мільйон вихідних токенів. Це становить 2.6-кратне зниження вартості порівняно з $2.06 у G6e, зумовлене нижчою погодинною ставкою G7e та його здатністю підтримувати стабільну пропускну здатність під навантаженням, доводячи, що висока продуктивність не обов'язково повинна коштувати дорого.

Майбутнє економічно ефективного генеративного AI-виводу

Впровадження інстансів G7e на Amazon SageMaker AI — це більше, ніж просто поступове оновлення; це стратегічний крок AWS для демократизації доступу до високопродуктивного генеративного ШІ. Поєднавши необмежену потужність GPU NVIDIA RTX PRO 6000 Blackwell з масштабованістю та можливостями управління SageMaker, AWS надає організаціям будь-якого розміру можливість розгортати більші, складніші моделі ШІ з безпрецедентною ефективністю та економічною доцільністю. Цей розвиток гарантує, що досягнення в генеративному ШІ можуть бути перетворені на практичні, готові до виробництва додатки в широкому спектрі галузей, зміцнюючи позиції SageMaker AI як провідної платформи для інновацій у сфері ШІ.

Першоджерело

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Поширені запитання

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Будьте в курсі

Отримуйте найсвіжіші новини ШІ на пошту.

Поділитися