Inferenca e Inteligjencës Artificiale Gjeneruese: Përshpejtimi në SageMaker me Instancat G7e

Instancat G7e: Një Epokë e Re për Inferencën e IA-së në SageMaker

Peizazhi i IA-së gjeneruese po evoluon me një ritëm të paprecedentë, duke nxitur një kërkesë të vazhdueshme për infrastrukturë më të fuqishme, fleksibël dhe me kosto efektive. Sot, Code Velocity është i emocionuar të raportojë për një përparim të rëndësishëm nga AWS: disponueshmërinë e përgjithshme të instancave G7e në Amazon SageMaker AI. Të fuqizuara nga GPU-të NVIDIA RTX PRO 6000 Blackwell Server Edition, këto instanca të reja janë vendosur të ripërcaktojnë standardet për inferencën e IA-së gjeneruese, duke u ofruar zhvilluesve dhe ndërmarrjeve performancë dhe kapacitet memorjeje të paprecedentë.

Amazon SageMaker AI është një shërbim plotësisht i menaxhuar që u ofron zhvilluesve dhe shkencëtarëve të të dhënave mjetet për të ndërtuar, trajnuar dhe vendosur modele të mësimit makinerik në shkallë. Prezantimi i instancave G7e shënon një moment kyç për ngarkesat e punës të IA-së gjeneruese në këtë platformë. Këto instanca shfrytëzojnë GPU-të e avancuara NVIDIA RTX PRO 6000 Blackwell, secila me një memorie GDDR7 mbresëlënëse prej 96 GB. Kjo rritje thelbësore e memorjes lejon vendosjen e modeleve thelmelore (FM) ndjeshëm më të mëdha drejtpërdrejt në SageMaker AI, duke adresuar një nevojë kritike për aplikacionet e avancuara të IA-së.

Organizatat tani mund të vendosin modele si GPT-OSS-120B, Nemotron-3-Super-120B-A12B (varianti NVFP4) dhe Qwen3.5-35B-A3B me efikasitet të jashtëzakonshëm. Instanca G7e.2xlarge, e pajisur me një GPU të vetme, mund të hostojë modele me 35B parametra, ndërsa G7e.48xlarge, me tetë GPU, shkallëzohet deri në modele me 300B parametra. Kjo fleksibilitet përkthehet në përfitime konkrete: kompleksitet operacional i reduktuar, vonesë më e ulët dhe kursime thelbësore kostosh për ngarkesat e punës të inferencës.

Zbardhja e Kërcimit Gjeneracional të Performancës së G7e

Instancat G7e përfaqësojnë një hap monumental përpara paraardhësve të tyre, G6e dhe G5, duke ofruar deri në 2.3 herë performancë më të shpejtë inferencimi krahasuar me G6e. Specifikimet teknike theksojnë këtë përparim gjeneracional. Çdo GPU G7e ofron një gjerësi brezi mahnitëse prej 1,597 GB/s, duke dyfishuar efektivisht memorjen për GPU të G6e dhe katërfishuar atë të G5. Për më tepër, aftësitë e rrjetëzimit janë përmirësuar ndjeshëm, duke shkallëzuar deri në 1,600 Gbps me EFA në madhësinë më të madhe G7e. Kjo rritje 4 herë mbi G6e dhe 16 herë mbi G5 zhbllokon potencialin për inferencë me shumë nyje me vonesë të ulët dhe skenarë fine-tuning të konsideruar më parë të papraktikueshëm.

Këtu është një krahasim që thekson progresin nëpër breza në nivelin me 8 GPU:

Specifikim	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
Memorje GPU për GPU	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
Memorja Totale e GPU	192 GB	384 GB	768 GB
Gjerësia e Brezit të Memorjes GPU	600 GB/s për GPU	864 GB/s për GPU	1,597 GB/s për GPU
vCPU	192	192	192
Memorja e Sistemit	768 GiB	1,536 GiB	2,048 GiB
Gjerësia e Brezit të Rrjetit	100 Gbps	400 Gbps	1,600 Gbps (EFA)
Ruajtja Lokale NVMe	7.6 TB	7.6 TB	15.2 TB
Inferenca kundrejt G6e	Baza	~1x	Deri në 2.3x

Me një memorie kolosale GPU prej 768 GB në një instancë të vetme G7e, modelet që dikur kërkonin konfigurime komplekse me shumë nyje në instancat e vjetra tani mund të vendosen me thjeshtësi të jashtëzakonshme. Kjo redukton ndjeshëm vonesën midis nyjeve dhe ngarkesën operative. Bashkë me mbështetjen për saktësinë FP4 përmes Tensor Cores të gjeneratës së pestë dhe NVIDIA GPUDirect RDMA mbi EFAv4, instancat G7e janë pa dyshim të dizajnuara për LLM kërkues, IA multimodale dhe flukset e punës të inferencës agjentike të sofistikuara në AWS.

Raste të Ndryshme Përdorimi të IA-së Gjeneruese Lulëzojnë në G7e

Kombinimi i fuqishëm i densitetit të memorjes, gjerësisë së brezit dhe aftësive të avancuara të rrjetëzimit i bën instancat G7e ideale për një spektër të gjerë të ngarkesave të punës bashkëkohore të IA-së gjeneruese. Nga përmirësimi i IA-së bisedore deri te fuqizimi i simulimeve fizike komplekse, G7e ofron avantazhe konkrete:

Chatbot-ët dhe IA Bisedore: Koha e ulët e tokenit të parë (TTFT) dhe shkalla e lartë e transmetimit (throughput) e instancave G7e sigurojnë përvoja interaktive të përgjegjshme dhe të pandërprera, edhe kur përballen me ngarkesa të rënda të përdoruesve të njëkohshëm. Kjo është thelbësore për ruajtjen e angazhimit dhe kënaqësisë së përdoruesve në ndërveprimet e IA-së në kohë reale.
Flukset e Punës Agjentike dhe Thirrjes së Veglave: Për pipeline-at Retrieval Augmented Generation (RAG) dhe sistemet agjentike, injektimi i shpejtë i kontekstit nga depozitat e rikthimit është thelbësor. Përmirësimi 4 herë i gjerësisë së brezit CPU-në-GPU brenda instancave G7e i bën ato jashtëzakonisht efektive për këto operacione kritike, duke mundësuar agjentë IA më inteligjentë dhe dinamikë.
Gjenerimi i Tekstit, Përmbledhja dhe Inferenca me Kontekst të Gjatë: Me 96 GB memorje për GPU, instancat G7e menaxhojnë me shkathtësi cache të mëdha Key-Value (KV). Kjo lejon kontekste dokumentash të zgjeruara, duke reduktuar ndjeshëm nevojën për shkurtim teksti dhe duke lehtësuar arsyetime më të pasura dhe më të nuancuara mbi hyrje të gjera.
Gjenerimi i Imazheve dhe Modelet e Vizionit: Aty ku instancat e gjeneratës së mëparshme shpesh hasnin gabime 'out-of-memory' me modele multimodale më të mëdha, kapaciteti i dyfishuar i memorjes së G7e i zgjidh me elegancë këto kufizime, duke hapur rrugën për aplikacione IA imazhi dhe vizioni më të sofistikuara dhe me rezolucion më të lartë.
IA Fizike dhe Kompjuterika Shkencore: Përtej IA-së tradicionale gjeneruese, kompjuterika e gjeneratës Blackwell e G7e, mbështetja FP4 dhe aftësitë e kompjuterikës hapësinore (duke përfshirë DLSS 4.0 dhe bërthamat RT të gjeneratës së 4-të) zgjerojnë dobinë e saj në binjakët dixhitalë, simulimin 3D dhe inferencën e avancuar të modeleve të IA-së fizike, duke hapur kufij të rinj në kërkimin shkencor dhe aplikacionet industriale.

Vendosje e Thjeshtuar dhe Vlerësimi i Performancës (Benchmarking)

Vendosja e modeleve të IA-së gjeneruese në instancat G7e nëpërmjet Amazon SageMaker AI është projektuar të jetë e thjeshtë. Përdoruesit mund të aksesojnë një notebook shembull këtu që thjeshton procesin. Parakushtet zakonisht përfshijnë një llogari AWS, një rol IAM për aksesin në SageMaker, dhe ose Amazon SageMaker Studio ose një instancë notebook-u SageMaker për mjedisin e zhvillimit. E rëndësishmja, përdoruesit duhet të kërkojnë një kuotë të përshtatshme për ml.g7e.2xlarge ose instanca më të mëdha për përdorimin e pikës fundore të SageMaker AI përmes konsolës Service Quotas.

Për të demonstruar fitimet e rëndësishme në performancë, AWS bëri benchmark-im të Qwen3-32B (BF16) si në instancat G6e ashtu edhe në ato G7e. Ngarkesa e punës përfshinte afërsisht 1,000 tokena hyrëse dhe 560 tokena dalëse për kërkesë, duke imituar detyra të zakonshme të përmbledhjes së dokumenteve. Të dyja konfigurimet përdorën kontejnerin nativ vLLM me caching prefiksi të aktivizuar, duke siguruar një krahasim të drejtë.

Rezultatet janë bindëse. Ndërsa baza G6e (ml.g6e.12xlarge me 4x GPU L40S me 13.12 dollarë/orë) tregoi një shkallë transmetimi (throughput) të fortë për kërkesë, G7e (ml.g7e.2xlarge me 1x RTX PRO 6000 Blackwell me 4.20 dollarë/orë) tregon një histori kostoje dramatike ndryshe. Nën njëkohshmëri prodhimi (C=32), G7e arriti një shifër mahnitëse prej 0.79 dollarë për milion tokenash dalëse. Kjo përfaqëson një reduktim të kostos prej 2.6 herësh krahasuar me 2.06 dollarë të G6e, e nxitur nga tarifa orare më e ulët e G7e dhe aftësia e saj për të ruajtur një shkallë transmetimi (throughput) të qëndrueshme nën ngarkesë, duke provuar se performanca e lartë nuk duhet të vijë me një kosto premium.

E Ardhmja e Inferencës së IA-së Gjeneruese me Kosto Efektive

Prezantimi i instancave G7e në Amazon SageMaker AI është më shumë se thjesht një përmirësim inkremental; është një lëvizje strategjike nga AWS për të demokratizuar aksesin në IA-në gjeneruese me performancë të lartë. Duke kombinuar fuqinë e papërpunuar të GPU-ve NVIDIA RTX PRO 6000 Blackwell me shkallëzueshmërinë dhe aftësitë e menaxhimit të SageMaker, AWS po fuqizon organizatat e të gjitha madhësive të vendosin modele IA më të mëdha, më komplekse me efikasitet dhe kosto-efektivitet të paprecedentë. Ky zhvillim siguron që përparimet në IA-në gjeneruese të mund të përkthehen në aplikacione praktike, të gatshme për prodhim në një gamë të gjerë industrish, duke forcuar pozicionin e SageMaker AI si një platformë udhëheqëse për inovacionin e IA-së.

Burimi origjinal

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Pyetjet e bëra shpesh

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Qëndroni të përditësuar

Merrni lajmet më të fundit të AI në email.

Ndaj