G7e-példányok: A mesterséges intelligencia következtetés új korszaka a SageMakeren
A generatív mesterséges intelligencia világa soha nem látott ütemben fejlődik, ami folyamatos igényt teremt erősebb, rugalmasabb és költséghatékonyabb infrastruktúra iránt. Ma a Code Velocity izgatottan számol be egy jelentős AWS fejlesztésről: a G7e-példányok általános elérhetőségéről az Amazon SageMaker AI-n. Az NVIDIA RTX PRO 6000 Blackwell Server Edition GPU-k által hajtott új példányok újradefiniálják a generatív AI következtetés benchmarkjait, páratlan teljesítményt és memóriakapacitást kínálva a fejlesztőknek és vállalatoknak.
Az Amazon SageMaker AI egy teljesen menedzselt szolgáltatás, amely eszközöket biztosít a fejlesztőknek és adatkutatóknak a gépi tanulási modellek nagyszabású építéséhez, betanításához és telepítéséhez. A G7e-példányok bevezetése mérföldkőnek számít a generatív AI munkafolyamatok számára ezen a platformon. Ezek a példányok a legmodernebb NVIDIA RTX PRO 6000 Blackwell GPU-kat használják, amelyek mindegyike lenyűgöző 96 GB GDDR7 memóriával büszkélkedhet. Ez a jelentős memóriabővítés lehetővé teszi lényegesen nagyobb alapmodellek (FM-ek) közvetlen telepítését a SageMaker AI-n, kielégítve a fejlett AI-alkalmazások kritikus igényét.
A szervezetek mostantól olyan modelleket telepíthetnek, mint a GPT-OSS-120B, a Nemotron-3-Super-120B-A12B (NVFP4 változat) és a Qwen3.5-35B-A3B figyelemre méltó hatékonysággal. A G7e.2xlarge példány, egyetlen GPU-val, 35B paraméteres modelleket képes tárolni, míg a G7e.48xlarge, nyolc GPU-val, akár 300B paraméteres modelleket is kezel. Ez a rugalmasság kézzelfogható előnyökkel jár: csökkentett működési komplexitás, alacsonyabb késleltetés és jelentős költségmegtakarítás a következtetési feladatoknál.
A G7e generációs teljesítményugrásának részletei
A G7e-példányok hatalmas ugrást jelentenek elődjeik, a G6e és G5 modellekhez képest, akár 2,3-szor gyorsabb következtetési teljesítményt nyújtva a G6e-hez viszonyítva. A technikai specifikációk alátámasztják ezt a generációs fejlődést. Minden G7e GPU elképesztő 1597 GB/s sávszélességet biztosít, hatékonyan megduplázva a G6e GPU-nkénti memóriáját, és megnégyszerezve a G5-ét. Továbbá, a hálózati képességek drámai módon javultak, a legnagyobb G7e méretben az EFA-val akár 1600 Gbps-ra skálázódva. Ez a G6e-hez képest 4-szeres, a G5-höz képest pedig 16-szoros növekedés felszabadítja az alacsony késleltetésű többcsomópontos következtetés és finomhangolás potenciálját, amely korábban kivitelezhetetlennek számított.
Íme egy összehasonlítás, amely a generációk közötti fejlődést emeli ki a 8-GPU-s szinten:
| Specifikáció | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
|---|---|---|---|
| GPU | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| GPU memória GPU-nként | 24 GB GDDR6 | 48 GB GDDR6 | 96 GB GDDR7 |
| Teljes GPU memória | 192 GB | 384 GB | 768 GB |
| GPU memória sávszélesség | 600 GB/s GPU-nként | 864 GB/s GPU-nként | 1597 GB/s GPU-nként |
| vCPU-k | 192 | 192 | 192 |
| Rendszermemória | 768 GiB | 1536 GiB | 2048 GiB |
| Hálózati sávszélesség | 100 Gbps | 400 Gbps | 1600 Gbps (EFA) |
| Helyi NVMe tárhely | 7,6 TB | 7,6 TB | 15,2 TB |
| Következtetés a G6e-hez képest | Alapvonal | ~1x | Akár 2,3x |
Egyetlen G7e-példányon található hatalmas, 768 GB összesített GPU memóriával olyan modellek, amelyek korábban összetett többcsomópontos konfigurációkat igényeltek a régebbi példányokon, mostanra figyelemre méltó egyszerűséggel telepíthetők. Ez jelentősen csökkenti a csomópontok közötti késleltetést és az operatív terheket. Az ötödik generációs Tensor Cores FP4 precíziós támogatásával és az EFAv4-en keresztüli NVIDIA GPUDirect RDMA-val párosulva a G7e-példányok egyértelműen a nagy igénybevételű LLM, multimodális AI és kifinomult ügynöki következtetési munkafolyamatok számára lettek tervezve az AWS-en.
Különféle generatív AI felhasználási esetek virágoznak a G7e-n
A memóriasűrűség, sávszélesség és fejlett hálózati képességek robusztus kombinációja a G7e-példányokat ideálissá teszi a kortárs generatív AI munkafolyamatok széles skálájához. A konverzációs AI javításától a komplex fizikai szimulációk meghajtásáig a G7e kézzelfogható előnyöket kínál:
- Chatbotok és konverzációs AI: A G7e-példányok alacsony Első Token Válaszideje (TTFT) és magas áteresztőképessége érzékeny és zökkenőmentes interaktív élményeket biztosít, még nagy egyidejű felhasználói terhelés esetén is. Ez kulcsfontosságú a felhasználói elkötelezettség és elégedettség fenntartásához a valós idejű AI interakciókban.
- Ügynöki és eszközhívó munkafolyamatok: A Lekérdezés-kiegészített Generálás (RAG) pipeline-ok és az ügynöki rendszerek esetében a gyors kontextusinjektálás a lekérdezési tárolókból alapvető fontosságú. A G7e-példányokon belüli CPU-GPU sávszélesség 4-szeres javulása kivételesen hatékonnyá teszi őket ezekben a kritikus műveletekben, lehetővé téve intelligensebb és dinamikusabb AI ügynököket.
- Szöveggenerálás, összefoglalás és hosszú kontextusú következtetés: A 96 GB GPU-nkénti memóriával a G7e-példányok ügyesen kezelik a nagy Key-Value (KV) gyorsítótárakat. Ez kiterjesztett dokumentumkontextusokat tesz lehetővé, jelentősen csökkentve a szövegcsonkolás szükségességét, és elősegítve a gazdagabb, árnyaltabb érvelést hatalmas bemenetek felett.
- Képgenerálás és látásmodellek: Míg a korábbi generációs példányok gyakran találkoztak memóriakifutási hibákkal nagyobb multimodális modellekkel, a G7e megduplázott memóriakapacitása elegánsan megoldja ezeket a korlátokat, utat nyitva a kifinomultabb és nagyobb felbontású kép- és látás AI alkalmazások számára.
- Fizikai AI és tudományos számítástechnika: A hagyományos generatív AI-n túl a G7e Blackwell-generációs számítási teljesítménye, az FP4 támogatás és a térbeli számítási képességei (beleértve a DLSS 4.0-t és a 4. generációs RT magokat) kiterjesztik hasznosságát a digitális ikrek, a 3D szimuláció és a fejlett fizikai AI modell következtetések területére, új határokat nyitva a tudományos kutatásban és az ipari alkalmazásokban.
Egyszerűsített telepítés és teljesítmény-benchmarkok
A generatív AI modellek telepítése G7e-példányokon az Amazon SageMaker AI-n keresztül egyszerűre lett tervezve. A felhasználók itt találhatnak egy minta notebookot, amely egyszerűsíti a folyamatot. Az előfeltételek jellemzően egy AWS-fiókot, egy IAM szerepkört a SageMaker hozzáféréshez, és az Amazon SageMaker Studio-t vagy egy SageMaker notebook példányt tartalmaznak a fejlesztői környezethez. Fontos, hogy a felhasználóknak megfelelő kvótát kell kérniük az ml.g7e.2xlarge vagy nagyobb példányokhoz a SageMaker AI végpont használatához a Service Quotas konzolon keresztül.
A jelentős teljesítménynövekedés bemutatására az AWS benchmarkolta a Qwen3-32B (BF16) modelleket mind a G6e, mind a G7e példányokon. A munkafolyamat körülbelül 1000 bemeneti tokent és 560 kimeneti tokent tartalmazott kérésenként, szimulálva a gyakori dokumentum-összefoglalási feladatokat. Mindkét konfiguráció a natív vLLM konténert használta előtag-gyorsítótárazással, biztosítva az "alma-az-almával" összehasonlítást.
Az eredmények meggyőzőek. Míg a G6e alapvonal (ml.g6e.12xlarge 4x L40S GPU-val, 13,12 dollár/óra áron) erős kérésenkénti áteresztőképességet mutatott, a G7e (ml.g7e.2xlarge 1x RTX PRO 6000 Blackwell-lel, 4,20 dollár/óra áron) drámai módon eltérő költségtörténetet mesél. Éles üzemi egyidejűség (C=32) mellett a G7e elképesztő 0,79 dollárt ért el egymillió kimeneti tokenenként. Ez 2,6-szoros költségcsökkenést jelent a G6e 2,06 dollárjához képest, amit a G7e alacsonyabb óradíja és az a képessége hajt, hogy terhelés alatt is fenntartja az állandó áteresztőképességet, bizonyítva, hogy a nagy teljesítménynek nem kell prémium áron jönnie.
A költséghatékony generatív AI következtetés jövője
A G7e-példányok bevezetése az Amazon SageMaker AI-n több, mint csupán egy apró fejlesztés; ez egy stratégiai lépés az AWS részéről a nagy teljesítményű generatív AI-hoz való hozzáférés demokratizálására. Az NVIDIA RTX PRO 6000 Blackwell GPU-k nyers erejét a SageMaker skálázhatósági és felügyeleti képességeivel ötvözve az AWS minden méretű szervezetet képessé tesz arra, hogy nagyobb, komplexebb AI modelleket telepítsen példátlan hatékonysággal és költséghatékonysággal. Ez a fejlesztés biztosítja, hogy a generatív AI területén elért előrelépéseket gyakorlati, éles környezetben is használható alkalmazásokká lehessen alakítani számos iparágban, megszilárdítva a SageMaker AI vezető pozícióját az AI innováció terén.
Eredeti forrás
https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/Gyakran ismételt kérdések
What are G7e instances and how do they benefit generative AI inference?
Which NVIDIA GPU powers the new G7e instances, and what are its key features?
How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?
What types of generative AI workloads are best suited for deployment on G7e instances?
What is the cost efficiency of G7e instances compared to G6e for generative AI inference?
What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?
What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?
Maradjon naprakész
Kapja meg a legfrissebb AI híreket e-mailben.
