Instance G7e: Nová éra pro inferenci AI na SageMakeru
Prostředí generativní AI se vyvíjí bezprecedentním tempem, což vede k neustálé poptávce po výkonnější, flexibilnější a nákladově efektivnější infrastruktuře. Dnes s potěšením informujeme o významném pokroku ze strany AWS: všeobecná dostupnost instancí G7e na Amazon SageMaker AI. Tyto nové instance, poháněné GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, jsou připraveny předefinovat benchmarky pro inferenci generativní AI a nabízejí vývojářům a podnikům bezkonkurenční výkon a kapacitu paměti.
Amazon SageMaker AI je plně spravovaná služba, která poskytuje vývojářům a datovým vědcům nástroje pro vytváření, trénování a nasazování modelů strojového učení ve velkém měřítku. Zavedení instancí G7e představuje klíčový okamžik pro úlohy generativní AI na této platformě. Tyto instance využívají špičkové GPU NVIDIA RTX PRO 6000 Blackwell, z nichž každý se pyšní působivou pamětí GDDR7 o velikosti 96 GB. Toto podstatné zvýšení paměti umožňuje nasazení výrazně větších základních modelů (FMs) přímo na SageMaker AI, čímž se řeší kritická potřeba pokročilých AI aplikací.
Organizace nyní mohou nasazovat modely jako GPT-OSS-120B, Nemotron-3-Super-120B-A12B (varianta NVFP4) a Qwen3.5-35B-A3B s pozoruhodnou efektivitou. Instance G7e.2xlarge, s jedním GPU, může hostovat modely s 35 miliardami parametrů, zatímco G7e.48xlarge, s osmi GPU, škáluje až na modely s 300 miliardami parametrů. Tato flexibilita se promítá do hmatatelných výhod: snížená provozní složitost, nižší latence a podstatné úspory nákladů pro inferenční úlohy.
Rozbalení generačního výkonnostního skoku G7e
Instance G7e představují monumentální skok oproti svým předchůdcům, G6e a G5, a poskytují až 2,3krát rychlejší inferenční výkon ve srovnání s G6e. Technické specifikace podtrhují tento generační pokrok. Každý G7e GPU poskytuje ohromující šířku pásma 1 597 GB/s, což efektivně zdvojnásobuje paměť na GPU u G6e a zčtyřnásobuje u G5. Navíc jsou dramaticky vylepšeny síťové schopnosti, škálování až na 1 600 Gbps s EFA u největší velikosti G7e. Toto 4x zvýšení oproti G6e a 16x oproti G5 odemyká potenciál pro nízkolatenční inferenci s více uzly a scénáře jemného ladění, které byly dříve považovány za nepraktické.
Zde je srovnání, které zdůrazňuje pokrok napříč generacemi v úrovni 8-GPU:
| Specifikace | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
|---|---|---|---|
| GPU | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| Paměť GPU na GPU | 24 GB GDDR6 | 48 GB GDDR6 | 96 GB GDDR7 |
| Celková paměť GPU | 192 GB | 384 GB | 768 GB |
| Šířka pásma paměti GPU | 600 GB/s na GPU | 864 GB/s na GPU | 1 597 GB/s na GPU |
| vCPU | 192 | 192 | 192 |
| Systémová paměť | 768 GiB | 1 536 GiB | 2 048 GiB |
| Šířka pásma sítě | 100 Gbps | 400 Gbps | 1 600 Gbps (EFA) |
| Lokální úložiště NVMe | 7.6 TB | 7.6 TB | 15.2 TB |
| Inference vs. G6e | Základ | ~1x | Až 2.3x |
S obrovskou celkovou pamětí GPU o velikosti 768 GB na jedné instanci G7e lze modely, které dříve vyžadovaly složité konfigurace s více uzly na starších instancích, nyní nasadit s pozoruhodnou jednoduchostí. To výrazně snižuje latenci mezi uzly a provozní náklady. Ve spojení s podporou přesnosti FP4 prostřednictvím Tensor Cores páté generace a NVIDIA GPUDirect RDMA přes EFAv4 jsou instance G7e jednoznačně navrženy pro náročné LLM, multimodální AI a sofistikované pracovní postupy agentní inference na AWS.
Rozmanité případy použití generativní AI prosperují na G7e
Robustní kombinace hustoty paměti, šířky pásma a pokročilých síťových schopností činí instance G7e ideálními pro široké spektrum současných úloh generativní AI. Od vylepšení konverzační AI po napájení komplexních fyzických simulací, G7e nabízí hmatatelné výhody:
- Chatboti a konverzační AI: Nízký čas do prvního tokenu (TTFT) a vysoká propustnost instancí G7e zajišťují citlivé a plynulé interaktivní zážitky, i při vysokém zatížení souběžnými uživateli. To je klíčové pro udržení zapojení uživatelů a spokojenosti v interakcích s AI v reálném čase.
- Agentní a volání nástrojů (Tool-Calling) pracovní postupy: Pro pipeline Retrieval Augmented Generation (RAG) a agentní systémy je klíčové rychlé vkládání kontextu z úložišť pro vyhledávání. 4x zlepšení šířky pásma mezi CPU a GPU v instancích G7e je činí výjimečně efektivními pro tyto kritické operace, což umožňuje inteligentnější a dynamičtější AI agenty.
- Generování textu, shrnování a inference s dlouhým kontextem: S 96 GB paměti na GPU instance G7e obratně zpracovávají velké Key-Value (KV) cache. To umožňuje rozšířené kontexty dokumentů, výrazně snižuje potřebu zkracování textu a usnadňuje bohatší, nuancovanější uvažování nad rozsáhlými vstupy.
- Generování obrázků a vizuální modely: Tam, kde předchozí generace instancí často narážely na chyby nedostatku paměti u větších multimodálních modelů, zdvojnásobená kapacita paměti G7e elegantně řeší tato omezení a otevírá cestu sofistikovanějším a vyšším rozlišením pro AI aplikace pro obrázky a vidění.
- Fyzická AI a vědecké výpočty: Kromě tradiční generativní AI rozšiřují výpočty generace Blackwell G7e, podpora FP4 a schopnosti prostorových výpočtů (včetně DLSS 4.0 a RT jader 4. generace) její využitelnost na digitální dvojčata, 3D simulace a pokročilou inferenci fyzických AI modelů, čímž otevírají nové hranice ve vědeckém výzkumu a průmyslových aplikacích.
Zjednodušené nasazení a srovnávání výkonu
Nasazení modelů generativní AI na instancích G7e prostřednictvím Amazon SageMaker AI je navrženo tak, aby bylo přímočaré. Uživatelé mají přístup k ukázkovému notebooku zde, který tento proces zjednodušuje. Předpoklady obvykle zahrnují účet AWS, IAM roli pro přístup k SageMakeru a buď Amazon SageMaker Studio, nebo instanci notebooku SageMaker pro vývojové prostředí. Důležité je, aby uživatelé požádali o vhodnou kvótu pro instance ml.g7e.2xlarge nebo větší pro použití koncového bodu SageMaker AI prostřednictvím konzole Service Quotas.
Pro demonstraci významných zisků výkonu AWS benchmarkovalo Qwen3-32B (BF16) na instancích G6e i G7e. Úloha zahrnovala přibližně 1 000 vstupních tokenů a 560 výstupních tokenů na požadavek, což napodobuje běžné úlohy shrnování dokumentů. Obě konfigurace využívaly nativní kontejner vLLM s povoleným prefix cachingem, což zajišťovalo srovnání "apples-to-apples".
Výsledky jsou přesvědčivé. Zatímco základní G6e (ml.g6e.12xlarge se 4x L40S GPU za 13,12 USD/hod) vykazoval silnou propustnost na požadavek, G7e (ml.g7e.2xlarge s 1x RTX PRO 6000 Blackwell za 4,20 USD/hod) vypráví dramaticky odlišný příběh o nákladech. Při produkční souběžnosti (C=32) dosáhl G7e úžasných 0,79 USD za milion výstupních tokenů. To představuje 2,6x snížení nákladů ve srovnání s 2,06 USD u G6e, což je způsobeno nižší hodinovou sazbou G7e a jeho schopností udržet konzistentní propustnost při zatížení, což dokazuje, že vysoký výkon nemusí jít za prémiovou cenu.
Budoucnost nákladově efektivní inference generativní AI
Zavedení instancí G7e na Amazon SageMaker AI je více než jen inkrementální upgrade; je to strategický krok AWS k demokratizaci přístupu k vysoce výkonné generativní AI. Spojením surové síly GPU NVIDIA RTX PRO 6000 Blackwell se škálovatelností a správními schopnostmi SageMakeru, AWS umožňuje organizacím všech velikostí nasazovat větší, složitější AI modely s bezprecedentní efektivitou a nákladovou úsporou. Tento vývoj zajišťuje, že pokroky v generativní AI mohou být převedeny do praktických, produkčně připravených aplikací napříč širokou škálou průmyslových odvětví, čímž se upevňuje pozice SageMaker AI jako přední platformy pro inovace v AI.
Často kladené dotazy
What are G7e instances and how do they benefit generative AI inference?
Which NVIDIA GPU powers the new G7e instances, and what are its key features?
How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?
What types of generative AI workloads are best suited for deployment on G7e instances?
What is the cost efficiency of G7e instances compared to G6e for generative AI inference?
What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?
What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?
Buďte v obraze
Dostávejte nejnovější AI zprávy do schránky.
