Generatiivse tehisintellekti järeldamine: Kiirendamine SageMakeris G7e eksemplaridega

G7e eksemplarid: uus ajastu AI järelduste tegemiseks SageMakeris

Generatiivse tehisintellekti maastik areneb enneolematu kiirusega, tekitades pideva nõudluse võimsama, paindlikuma ja kulutõhusama infrastruktuuri järele. Täna on Code Velocityil hea meel teatada märkimisväärsest edusammust AWS-ilt: G7e eksemplaride üldisest kättesaadavusest Amazon SageMaker AI-s. NVIDIA RTX PRO 6000 Blackwell Server Edition GPU-dega varustatud uued eksemplarid on määratud ümber defineerima generatiivse tehisintellekti järelduste võrdlusaluseid, pakkudes arendajatele ja ettevõtetele enneolematut jõudlust ja mälu mahtu.

Amazon SageMaker AI on täielikult hallatav teenus, mis pakub arendajatele ja andmeteadlastele tööriistu masinõppe mudelite loomiseks, treenimiseks ja juurutamiseks suures ulatuses. G7e eksemplaride tutvustamine tähistab pöördelist hetke generatiivse tehisintellekti töökoormuste jaoks sellel platvormil. Need eksemplarid kasutavad tipptasemel NVIDIA RTX PRO 6000 Blackwell GPU-sid, millest igaühel on muljetavaldav 96 GB GDDR7 mälu. See märkimisväärne mälu suurenemine võimaldab juurutada oluliselt suuremaid alusmudeleid (FM) otse SageMaker AI-s, vastates arenenud tehisintellekti rakenduste kriitilisele vajadusele.

Organisatsioonid saavad nüüd juurutada mudeleid nagu GPT-OSS-120B, Nemotron-3-Super-120B-A12B (NVFP4 variant) ja Qwen3.5-35B-A3B märkimisväärse efektiivsusega. G7e.2xlarge eksemplar, mis sisaldab ühte GPU-d, suudab majutada 35B parameetriga mudeleid, samas kui G7e.48xlarge, kaheksa GPU-ga, skaleerub kuni 300B parameetriga mudeliteni. See paindlikkus toob kaasa käegakatsutavaid eeliseid: vähenenud operatiivset keerukust, madalama latentsuse ja olulise kulude kokkuhoiu järeldustöökoormuste puhul.

G7e põlvkondliku jõudluse hüppe lahtipakkimine

G7e eksemplarid kujutavad endast monumentaalset hüpet võrreldes oma eelkäijate G6e ja G5-ga, pakkudes kuni 2,3 korda kiiremat järeldusjõudlust võrreldes G6e-ga. Tehnilised spetsifikatsioonid rõhutavad seda põlvkondlikku edasiminekut. Iga G7e GPU pakub hämmastavat 1597 GB/s ribalaiust, kahekordistades G6e GPU-mälu ja neljakordistades G5 oma. Lisaks on võrguvõimalused dramaatiliselt paranenud, skaleerudes kuni 1600 Gbps-ini EFA-ga suurimal G7e suurusel. See 4-kordne kasv võrreldes G6e-ga ja 16-kordne võrreldes G5-ga avab potentsiaali madala latentsusega mitmesõlmeliste järeldus- ja peenhäälestusstsenaariumide jaoks, mida varem peeti ebapraktiliseks.

Siin on võrdlus, mis toob esile põlvkondade arengu 8-GPU tasemel:

Spetsifikatsioon	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
GPU mälu GPU kohta	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
Kokku GPU mälu	192 GB	384 GB	768 GB
GPU mälu ribalaius	600 GB/s GPU kohta	864 GB/s GPU kohta	1597 GB/s GPU kohta
vCPU-d	192	192	192
Süsteemi mälu	768 GiB	1,536 GiB	2,048 GiB
Võrgu ribalaius	100 Gbps	400 Gbps	1600 Gbps (EFA)
Kohalik NVMe salvestusruum	7.6 TB	7.6 TB	15.2 TB
Järeldamine vs. G6e	Algväärtus	~1x	Kuni 2,3x

Kolossaalse 768 GB koond-GPU-mäluga ühes G7e eksemplaris saab nüüd mudelid, mis varem vajasid keerulisi mitmesõlmelisi konfiguratsioone vanematel eksemplaridel, juurutada märkimisväärse lihtsusega. See vähendab oluliselt sõlmedevahelist latentsust ja operatiivseid üldkulusid. Koos FP4 täpsuse toega viienda põlvkonna Tensor Cores'i kaudu ja NVIDIA GPUDirect RDMA üle EFAv4 on G7e eksemplarid üheselt loodud nõudlike LLM-ide, multimodaalse AI ja keerukate agendi järeldustöövoogude jaoks AWS-is.

Mitmekesised generatiivse tehisintellekti kasutusjuhud edukad G7e-l

Mälu tiheduse, ribalaiuse ja täiustatud võrguvõimaluste tugev kombinatsioon muudab G7e eksemplarid ideaalseks laia spektriga kaasaegsete generatiivse tehisintellekti töökoormuste jaoks. Alates vestlus-AI täiustamisest kuni keerukate füüsiliste simulatsioonide toidamiseni pakub G7e käegakatsutavaid eeliseid:

Vestlusrobotid ja vestlus-AI: G7e eksemplaride madal esimese märgi aeg (TTFT) ja suur läbilaskevõime tagavad tundlikud ja sujuvad interaktiivsed kogemused, isegi kui tekib suur samaaegsete kasutajate koormus. See on oluline kasutajate kaasatuse ja rahulolu säilitamiseks reaalajas tehisintellekti interaktsioonides.
Agendi ja tööriistakutse töövoogud: Retrieval Augmented Generation (RAG) torujuhtmete ja agendi süsteemide jaoks on konteksti kiire sisestamine otsingusalvestitest ülitähtis. G7e eksemplaride CPU-GPU ribalaiuse 4-kordne paranemine muudab need nende kriitiliste toimingute jaoks erakordselt tõhusaks, võimaldades intelligentsemaid ja dünaamilisemaid tehisintellekti agente.
Teksti genereerimine, kokkuvõtete tegemine ja pika kontekstiga järeldamine: 96 GB GPU-mälu kohta võimaldavad G7e eksemplarid osavalt käsitleda suuri võtme-väärtuse (KV) vahemälusid. See võimaldab laiendatud dokumendikontekste, vähendades oluliselt teksti kärpimise vajadust ja hõlbustades rikkalikumat ja nüansirikkamat arutluskäiku tohutute sisendite üle.
Pildigeneratsioon ja nägemismudelid: Kui eelmise põlvkonna eksemplarid puutusid suuremate multimodaalsete mudelitega sageli kokku mälupiirangu vigadega, siis G7e kahekordistatud mälu maht lahendab need piirangud elegantselt, sillutades teed keerukamatele ja kõrgema resolutsiooniga pildi- ja nägemis-AI rakendustele.
Füüsiline AI ja teaduslik arvutus: Lisaks traditsioonilisele generatiivsele tehisintellektile laiendavad G7e Blackwelli-põlvkonna arvutusvõimsus, FP4 tugi ja ruumilised arvutusvõimalused (sealhulgas DLSS 4.0 ja 4. põlvkonna RT-tuumad) selle kasutusala digitaalsetele kaksikutele, 3D-simulatsioonile ja arenenud füüsilise AI mudeli järeldustele, avades uusi piire teadusuuringutes ja tööstuslikes rakendustes.

Lihtsustatud juurutamine ja jõudluse võrdlusuuring

Generatiivse tehisintellekti mudelite juurutamine G7e eksemplaridel Amazon SageMaker AI kaudu on disainitud olema lihtne. Kasutajad pääsevad ligi näidis märkmikule siit, mis lihtsustab protsessi. Eeltingimuste hulka kuuluvad tavaliselt AWS-i konto, IAM-roll SageMakerile juurdepääsuks ja kas Amazon SageMaker Studio või SageMakeri märkmiku eksemplar arenduskeskkonna jaoks. Oluline on, et kasutajad taotleksid sobiva kvoodi ml.g7e.2xlarge või suurematele eksemplaridele SageMaker AI lõpp-punkti kasutamiseks Service Quotas konsooli kaudu.

Märkimisväärsete jõudluse paranemiste demonstreerimiseks viis AWS läbi Qwen3-32B (BF16) võrdlusuuringu nii G6e kui ka G7e eksemplaridel. Töökoormus hõlmas umbes 1000 sisendi märki ja 560 väljundi märki päringu kohta, jäljendades tavalisi dokumendi kokkuvõtete tegemise ülesandeid. Mõlemad konfiguratsioonid kasutasid natiivset vLLM konteinerit eesliite vahemälu lubatusega, tagades võrreldava võrdluse.

Tulemused on veenvad. Kuigi G6e algväärtus (ml.g6e.12xlarge 4x L40S GPU-ga hinnaga 13,12 $/tund) näitas tugevat päringupõhist läbilaskevõimet, räägib G7e (ml.g7e.2xlarge 1x RTX PRO 6000 Blackwelliga hinnaga 4,20 $/tund) dramaatiliselt erineva kululoo. Tootmiskonkurentsi (C=32) korral saavutas G7e hämmastavalt 0,79 dollarit miljoni väljundmärgi kohta. See kujutab endast märkimisväärset 2,6-kordset kulude vähenemist võrreldes G6e 2,06 dollariga, mis on tingitud G7e madalamast tunnihinnast ja selle võimest säilitada koormuse all püsiv läbilaskevõime, tõestades, et kõrge jõudlus ei pea kaasas käima kõrge hinnaga.

Kulutõhusa generatiivse tehisintellekti järelduste tulevik

G7e eksemplaride tutvustamine Amazon SageMaker AI-s on midagi enamat kui lihtsalt järkjärguline uuendus; see on AWS-i strateegiline samm, et demokratiseerida juurdepääsu suure jõudlusega generatiivsele tehisintellektile. Ühendades NVIDIA RTX PRO 6000 Blackwell GPU-de toorjõu SageMakeri skaleeritavuse ja haldusvõimalustega, annab AWS igas suuruses organisatsioonidele võimaluse juurutada suuremaid, keerukamaid tehisintellekti mudeleid enneolematu tõhususe ja kulutõhususega. See areng tagab, et generatiivse tehisintellekti edusammud saab tõlkida praktilisteks, tootmiseks valmis rakendusteks laias valikus tööstusharudes, tugevdades SageMaker AI positsiooni juhtiva platvormina tehisintellekti innovatsioonis.

Algallikas

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Korduma kippuvad küsimused

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Püsige kursis

Saage värskeimad AI uudised oma postkasti.

Jaga