G7e инстанции: Нова ера за AI инференция на SageMaker
Пейзажът на генеративния AI се развива с безпрецедентни темпове, което води до постоянно нарастващо търсене на по-мощна, гъвкава и рентабилна инфраструктура. Днес Code Velocity с вълнение съобщава за значителен напредък от AWS: общата наличност на G7e инстанции в Amazon SageMaker AI. Задвижвани от NVIDIA RTX PRO 6000 Blackwell Server Edition графични процесори, тези нови инстанции са на път да предефинират еталоните за инференция на генеративен AI, предлагайки на разработчиците и предприятията несравнима производителност и капацитет на паметта.
Amazon SageMaker AI е напълно управлявана услуга, която предоставя на разработчиците и специалистите по данни инструменти за изграждане, обучение и разгръщане на модели за машинно обучение в голям мащаб. Въвеждането на G7e инстанции отбелязва ключов момент за работните натоварвания на генеративен AI на тази платформа. Тези инстанции използват авангардните NVIDIA RTX PRO 6000 Blackwell графични процесори, всеки от които може да се похвали с впечатляващите 96 GB GDDR7 памет. Това значително увеличение на паметта позволява разгръщането на значително по-големи базови модели (FMs) директно на SageMaker AI, отговаряйки на критична нужда за напреднали AI приложения.
Организациите вече могат да разгръщат модели като GPT-OSS-120B, Nemotron-3-Super-120B-A12B (NVFP4 вариант) и Qwen3.5-35B-A3B със забележителна ефективност. Инстанцията G7e.2xlarge, включваща един GPU, може да хоства модели с 35B параметъра, докато G7e.48xlarge, с осем GPU, се мащабира до модели с 300B параметъра. Тази гъвкавост води до осезаеми ползи: намалена оперативна сложност, по-ниска латентност и значителни икономии на разходи за работни натоварвания на инференцията.
Разгръщане на скока в производителността на G7e през поколенията
G7e инстанциите представляват монументален скок спрямо своите предшественици, G6e и G5, осигурявайки до 2.3 пъти по-бърза производителност на инференцията в сравнение с G6e. Техническите спецификации подчертават този напредък в поколенията. Всеки G7e GPU предоставя изумителна честотна лента от 1 597 GB/s, ефективно удвоявайки паметта на GPU на G6e и учетворявайки тази на G5. Освен това възможностите за работа в мрежа са драстично подобрени, мащабирайки се до 1 600 Gbps с EFA за най-големия размер G7e. Това 4 пъти увеличение спрямо G6e и 16 пъти спрямо G5 отключва потенциала за инференция с ниска латентност на множество възли и сценарии за фина настройка, които преди това се смятаха за непрактични.
Ето сравнение, подчертаващо напредъка между поколенията на ниво 8-GPU:
| Спецификация | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
|---|---|---|---|
| GPU | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| GPU памет на GPU | 24 GB GDDR6 | 48 GB GDDR6 | 96 GB GDDR7 |
| Обща GPU памет | 192 GB | 384 GB | 768 GB |
| Честотна лента на GPU паметта | 600 GB/s на GPU | 864 GB/s на GPU | 1 597 GB/s на GPU |
| vCPUs | 192 | 192 | 192 |
| Системна памет | 768 GiB | 1 536 GiB | 2 048 GiB |
| Мрежова честотна лента | 100 Gbps | 400 Gbps | 1 600 Gbps (EFA) |
| Локално NVMe хранилище | 7.6 TB | 7.6 TB | 15.2 TB |
| Инференция спрямо G6e | Базова | ~1x | До 2.3x |
С колосалната 768 GB обща GPU памет на една G7e инстанция, модели, които някога изискваха сложни конфигурации с множество възли на по-стари инстанции, вече могат да бъдат разгърнати със забележителна простота. Това значително намалява латентността между възлите и оперативните разходи. В комбинация с поддръжката на FP4 прецизност чрез Tensor Cores от пето поколение и NVIDIA GPUDirect RDMA през EFAv4, G7e инстанциите са недвусмислено проектирани за взискателни LLM, мултимодален AI и сложни агентни работни процеси за инференция в AWS.
Разнообразни случаи на употреба на генеративен AI процъфтяват на G7e
Солидната комбинация от плътност на паметта, честотна лента и усъвършенствани мрежови възможности прави G7e инстанциите идеални за широк спектър от съвременни работни натоварвания на генеративен AI. От подобряване на разговорния AI до захранване на сложни физически симулации, G7e предлага осезаеми предимства:
- Чатботове и разговорен AI: Ниското Време до първи токен (TTFT) и високата пропускателна способност на G7e инстанциите осигуряват отзивчиви и безпроблемни интерактивни преживявания, дори при голямо натоварване от едновременни потребители. Това е от решаващо значение за поддържане на ангажираността и удовлетворението на потребителите в AI взаимодействия в реално време.
- Агентни и работни процеси за извикване на инструменти: За пайплайни с генерация, подпомогната от извличане (RAG), и агентни системи, бързото инжектиране на контекст от хранилища за извличане е от първостепенно значение. 4-кратното подобрение в честотната лента от CPU към GPU в рамките на G7e инстанциите ги прави изключително ефективни за тези критични операции, позволявайки по-интелигентни и динамични AI агенти.
- Генериране на текст, обобщаване и инференция с дълъг контекст: С 96 GB памет на GPU, G7e инстанциите умело обработват големи кешове от ключ-стойност (KV). Това позволява разширени контексти на документи, значително намалявайки необходимостта от съкращаване на текст и улеснявайки по-богато и нюансирано разсъждение върху обширни входни данни.
- Генериране на изображения и визуални модели: Докато предишните поколения инстанции често срещаха грешки от недостиг на памет при по-големи мултимодални модели, удвоеният капацитет на паметта на G7e изящно разрешава тези ограничения, проправяйки пътя за по-сложни и с по-висока разделителна способност AI приложения за изображения и визуални данни.
- Физически AI и научни изчисления: Отвъд традиционния генеративен AI, изчислителната мощ от поколение Blackwell на G7e, поддръжката на FP4 и възможностите за пространствени изчисления (включително DLSS 4.0 и 4-то поколение RT ядра) разширяват неговата полезност до цифрови близнаци, 3D симулации и усъвършенствана инференция на физически AI модели, отваряйки нови граници в научните изследвания и индустриалните приложения.
Оптимизирано разгръщане и бенчмарк на производителността
Разгръщането на модели за генеративен AI на G7e инстанции чрез Amazon SageMaker AI е проектирано да бъде лесно. Потребителите могат да получат достъп до примерен ноутбук тук, който рационализира процеса. Предварителните изисквания обикновено включват AWS акаунт, IAM роля за достъп до SageMaker и или Amazon SageMaker Studio, или инстанция на SageMaker ноутбук за средата за разработка. Важно е потребителите да заявят подходяща квота за ml.g7e.2xlarge или по-големи инстанции за използване на крайни точки на SageMaker AI чрез конзолата Service Quotas.
За да демонстрира значителните печалби в производителността, AWS направи бенчмарк на Qwen3-32B (BF16) както на G6e, така и на G7e инстанции. Работното натоварване включваше приблизително 1 000 входни токена и 560 изходни токена на заявка, имитирайки общи задачи за обобщаване на документи. И двете конфигурации използваха нативния vLLM контейнер с активирано кеширане на префикси, осигурявайки сравнение „ябълка с ябълка“.
Резултатите са убедителни. Докато базовата линия G6e (ml.g6e.12xlarge с 4x L40S GPU на $13.12/час) показа силна пропускателна способност на заявка, G7e (ml.g7e.2xlarge с 1x RTX PRO 6000 Blackwell на $4.20/час) разказва драматично различна история за разходите. При производствена паралелност (C=32), G7e постигна удивителните $0.79 на милион изходни токени. Това представлява 2.6 пъти намаление на разходите в сравнение с $2.06 на G6e, обусловено от по-ниската часова ставка на G7e и способността му да поддържа постоянна пропускателна способност при натоварване, доказвайки, че високата производителност не трябва да е на висока цена.
Бъдещето на рентабилната инференция на генеративен AI
Въвеждането на G7e инстанции в Amazon SageMaker AI е нещо повече от постепенно надграждане; това е стратегически ход от страна на AWS за демократизиране на достъпа до високопроизводителен генеративен AI. Комбинирайки суровата мощ на NVIDIA RTX PRO 6000 Blackwell графични процесори с възможностите за мащабируемост и управление на SageMaker, AWS дава възможност на организации от всякакъв размер да разгръщат по-големи, по-сложни AI модели с безпрецедентна ефективност и рентабилност. Това развитие гарантира, че постиженията в генеративния AI могат да бъдат превърнати в практични, готови за производство приложения в широк спектър от индустрии, затвърждавайки позицията на SageMaker AI като водеща платформа за иновации в AI.
Оригинален източник
https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/Често задавани въпроси
What are G7e instances and how do they benefit generative AI inference?
Which NVIDIA GPU powers the new G7e instances, and what are its key features?
How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?
What types of generative AI workloads are best suited for deployment on G7e instances?
What is the cost efficiency of G7e instances compared to G6e for generative AI inference?
What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?
What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?
Бъдете информирани
Получавайте последните AI новини по имейл.
