Myndandi gervigreindarályktun: Hraðari á SageMaker með G7e tilvikum

G7e tilvik: Nýtt tímabil fyrir gervigreindarályktun á SageMaker

Landslag myndandi gervigreindar þróast með fordæmalausum hraða og knýr stöðuga eftirspurn eftir öflugri, sveigjanlegri og hagkvæmari innviðum. Í dag er Code Velocity spennt að tilkynna um mikla framför frá AWS: almennt framboð á G7e tilvikum á Amazon SageMaker AI. Knúin af NVIDIA RTX PRO 6000 Blackwell Server Edition GPUum, eru þessi nýju tilvik ætluð til að endurskilgreina viðmið fyrir myndandi gervigreindarályktun og bjóða þróunaraðilum og fyrirtækjum óviðjafnanleg afköst og minnisgetu.

Amazon SageMaker AI er fullkomlega stýrð þjónusta sem veitir þróunaraðilum og gagnafræðingum verkfæri til að byggja, þjálfa og útfæra vélrænt nám líkön á stórum skala. Innleiðing G7e tilvika markar mikilvægan tímapunkt fyrir vinnuálag myndandi gervigreindar á þessum vettvangi. Þessi tilvik nýta sér nýjustu NVIDIA RTX PRO 6000 Blackwell GPUurnar, hver um sig státar af glæsilegum 96 GB af GDDR7 minni. Þessi verulega aukning á minni gerir kleift að útfæra mun stærri grunnlíkön (FMs) beint á SageMaker AI, sem mætir mikilvægri þörf fyrir háþróuð gervigreindarforrit.

Fyrirtæki geta nú útfært líkön eins og GPT-OSS-120B, Nemotron-3-Super-120B-A12B (NVFP4 afbrigði) og Qwen3.5-35B-A3B með ótrúlegri skilvirkni. G7e.2xlarge tilvikið, sem býður upp á eina GPU, getur hýst 35 milljarða breytu líkön, á meðan G7e.48xlarge, með átta GPUum, skalast upp í 300 milljarða breytu líkön. Þessi sveigjanleiki skilar sér í áþreifanlegum ávinningi: minni rekstrarflækjustig, lægri leynd og umtalsverðan kostnaðarsparnað fyrir ályktunarvinnuálag.

Afhjúpun á kynslóðarstökk G7e í afköstum

G7e tilvik eru stórkostlegt stökk fram úr forverum sínum, G6e og G5, og skila allt að 2,3 sinnum hraðari ályktunarafköstum samanborið við G6e. Tæknilegar upplýsingar undirstrika þessa kynslóðarframför. Hver G7e GPU veitir ótrúlega 1.597 GB/s bandbreidd, sem tvöfaldar í raun minni á hverja GPU miðað við G6e og fjórfaldar það miðað við G5. Ennfremur eru netmöguleikar stórlega auknir, skalanir allt að 1.600 Gbps með EFA á stærstu G7e stærðinni. Þessi 4x aukning fram úr G6e og 16x fram úr G5 opnar möguleika fyrir fjölhnúta ályktun með lágri leynd og fínstillingar sem áður voru taldar óframkvæmanlegar.

Hér er samanburður sem sýnir framvindu yfir kynslóðir á 8-GPU stiginu:

Eiginleiki	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
GPU minni á hverja GPU	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
Heildar GPU minni	192 GB	384 GB	768 GB
GPU minnisbandbreidd	600 GB/s per GPU	864 GB/s per GPU	1.597 GB/s per GPU
vCPU	192	192	192
Kerfisminni	768 GiB	1.536 GiB	2.048 GiB
Netbandbreidd	100 Gbps	400 Gbps	1.600 Gbps (EFA)
Staðbundið NVMe geymslurými	7.6 TB	7.6 TB	15.2 TB
Ályktun vs. G6e	Grunnlína	~1x	Allt að 2.3x

Með gríðarlegri 768 GB af samanlögðu GPU minni á einu G7e tilviki, er nú hægt að útfæra líkön sem áður kröfðust flókinna fjölhnúta uppsetninga á eldri tilvikum með ótrúlegri einfaldleika. Þetta dregur verulega úr leynd milli hnútanna og rekstrarkostnaði. Í sambandi við stuðning við FP4 nákvæmni í gegnum fimmta kynslóð Tensor Cores og NVIDIA GPUDirect RDMA yfir EFAv4, eru G7e tilvik ótvírætt hönnuð fyrir krefjandi LLM, fjölþátta gervigreindar og flókin miðlaravinnuflæði fyrir ályktun á AWS.

Fjölbreytt notkunartilvik myndandi gervigreindar þrífast á G7e

Hin öfluga samsetning minnisþéttleika, bandbreiddar og háþróaðra netmöguleika gerir G7e tilvik tilvalin fyrir breitt svið nútíma vinnuálags myndandi gervigreindar. Frá því að bæta samræðugervigreind til þess að knýja flóknar eðlisfræðilegar uppgerðir, býður G7e upp á áþreifanlegan ávinning:

Spjallbotnar og samræðugervigreind: Lágt Tími til Fyrsta Tákn (TTFT) og mikil afköst G7e tilvika tryggja móttækileg og óaðfinnanleg gagnvirk upplifun, jafnvel þegar mikill samtímis notendaálag er fyrir hendi. Þetta er mikilvægt til að viðhalda þátttöku notenda og ánægju í rauntíma gervigreindarsamskiptum.
Miðlaravinnuflæði og Verkfæraköllun: Fyrir Retrieval Augmented Generation (RAG) vinnslulínur og miðlarakerfi er hröð samhengisinnsetning úr endurheimtargeymslum afar mikilvæg. Sú 4x framför í bandbreidd milli CPU og GPU innan G7e tilvika gerir þau einstaklega skilvirk fyrir þessar mikilvægu aðgerðir, sem gerir kleift að búa til gervigreindaraðila sem eru greindari og kraftmeiri.
Textamyndun, samantekt og ályktun með löngu samhengi: Með 96 GB af minni á hverja GPU, ráða G7e tilvik á skilvirkan hátt við stóra Key-Value (KV) skyndiminnar. Þetta leyfir útvíkkað samhengi skjala, sem dregur verulega úr þörf fyrir textastyttingu og auðveldar ríkari, nákvæmari rökstuðning yfir víðtækar inntaksgögn.
Myndamyndun og sjónlíkön: Þar sem fyrri kynslóðar tilvik lentu oft í minnisvillum með stærri fjölþátta líkönum, leysir tvöföld minnisgeta G7e þessar takmarkanir á áhrifaríkan hátt, og opnar leiðina fyrir flóknari og hærri upplausnar mynd- og sjón gervigreindarforrit.
Eðlisfræðileg gervigreind og vísindalegar útreikningar: Fyrir utan hefðbundna myndandi gervigreind, framlengja Blackwell-kynslóðar útreikninga, FP4 stuðningur og staðbundnar útreikningsgetur G7e (þ.mt DLSS 4.0 og 4. kynslóð RT kjarna) notkun hennar til stafrænna tvíbura, 3D uppgerðar og háþróaðrar ályktunar eðlisfræðilegra gervigreindarlíkana, sem opnar nýjar leiðir í vísindarannsóknum og iðnaðarforritum.

Straumlínulöguð útfærsla og viðmiðun afkasta

Útfærsla myndandi gervigreindarlíkana á G7e tilvikum í gegnum Amazon SageMaker AI er hönnuð til að vera einföld. Notendur geta nálgast dæmi um minnisbók hér sem straumlínulagar ferlið. Forsendur innihalda venjulega AWS reikning, IAM hlutverk fyrir SageMaker aðgang, og annað hvort Amazon SageMaker Studio eða SageMaker minnisbókartilvik fyrir þróunarumhverfið. Mikilvægt er að notendur ættu að biðja um viðeigandi kvóta fyrir ml.g7e.2xlarge eða stærri tilvik fyrir notkun SageMaker AI endapunkta í gegnum Service Quotas console.

Til að sýna fram á verulegan ávinning í afköstum, gerði AWS viðmiðun á Qwen3-32B (BF16) á bæði G6e og G7e tilvikum. Vinnuálagið fól í sér um það bil 1.000 inntakstákn og 560 úttakstákn á hverja beiðni, sem líkti eftir algengum verkefnum við samantekt skjala. Báðar uppsetningar notuðu innfædda vLLM ílát með virkum forskeytis skyndiminni, sem tryggði samanburð án hlutdrægni.

Niðurstöðurnar eru sannfærandi. Þó að G6e grunnlíkön (ml.g6e.12xlarge með 4x L40S GPUum á $13,12/klst) sýndu mikla afköst á hverja beiðni, segir G7e (ml.g7e.2xlarge með 1x RTX PRO 6000 Blackwell á $4,20/klst) verulega aðra kostnaðarsögu. Við framleiðslusamfellu (C=32), náði G7e ótrúlegum $0,79 á hverja milljón úttakstákna. Þetta táknar 2,6x kostnaðarlækkun samanborið við $2,06 G6e, knúið af lægri tímagjaldi G7e og getu þess til að viðhalda stöðugum afköstum undir álagi, sem sannar að mikil afköst þurfa ekki að kosta mikið.

Framtíð hagkvæmrar myndandi gervigreindarályktunar

Innleiðing G7e tilvika á Amazon SageMaker AI er meira en bara smávægileg uppfærsla; það er stefnumótandi skref frá AWS til að lýðræðisvæða aðgang að afkastamikilli myndandi gervigreind. Með því að sameina hráan kraft NVIDIA RTX PRO 6000 Blackwell GPUa við skalanleika og stjórnunargetu SageMaker, er AWS að styrkja fyrirtæki af öllum stærðum til að útfæra stærri, flóknari gervigreindarlíkön með fordæmalausri skilvirkni og hagkvæmni. Þessi þróun tryggir að framfarir í myndandi gervigreind geti verið umbreytt í hagnýt, framleiðsluhæf forrit yfir fjölbreytt úrval iðnaðar, sem styrkir stöðu SageMaker AI sem leiðandi vettvang fyrir gervigreindarnýsköpun.

Upprunaleg heimild

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Algengar spurningar

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Fylgstu með

Fáðu nýjustu gervigreindarfréttirnar í pósthólfið.

Deila