Generativ Süni İntellekt Çıxarışı: SageMaker-də G7e İnstansiyaları ilə Sürətləndirmə

title: "Generativ Süni İntellekt Çıxarışı: SageMaker-də G7e İnstansiyaları ilə Sürətləndirmə" slug: "accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances" date: "2026-04-21" lang: "az" source: "https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/" category: "Korporativ Süni İntellekt" keywords:

Generativ Süni İntellekt
Süni İntellekt Çıxarışı
Amazon SageMaker
AWS G7e instansiyaları
NVIDIA RTX PRO 6000
Böyük Dil Modellərinin (BDM) yerləşdirilməsi
Səmərəli Süni İntellekt
GPU yaddaşı
Blackwell
vLLM
Fundamental Modellər
Agent əsaslı İş Axınları meta_description: "Amazon SageMaker AI-də generativ süni intellekt çıxarışını NVIDIA RTX PRO 6000 Blackwell GPU-ları ilə təchiz edilmiş yeni G7e instansiyaları ilə sürətləndirin, 2.3x performans və xərcə qənaət təklif edir." image: "/images/articles/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances.png" image_alt: "Amazon SageMaker AI G7e instansiyaları NVIDIA RTX PRO 6000 Blackwell GPU-ları ilə generativ süni intellekt çıxarışını sürətləndirir." quality_score: 94 content_score: 93 seo_score: 95 companies:
AWS schema_type: "NewsArticle" reading_time: 4 faq:
question: "G7e instansiyaları nədir və generativ süni intellekt çıxarışı üçün hansı faydaları var?" answer: "G7e instansiyaları Amazon SageMaker AI-da mövcud olan GPU ilə sürətləndirilmiş hesablama instansiyalarının ən son nəslidir və xüsusilə generativ süni intellekt çıxarışı iş yüklərini sürətləndirmək üçün nəzərdə tutulmuşdur. Onlar NVIDIA RTX PRO 6000 Blackwell Server Edition GPU-ları ilə təchiz edilmişdir, yaddaş tutumu, bant genişliyi və ümumi çıxarış performansında əhəmiyyətli irəliləyişlər təklif edir. Generativ süni intellekt üçün G7e instansiyaları daha sürətli İlk Tokenə Qədər Vaxt (TTFT), daha yüksək ötürmə qabiliyyəti və daha böyük fundamental modelləri (FM) tək bir instansiya daxilində və ya hətta tək bir GPU-da yerləşdirmə imkanı deməkdir. Bu, daha həssas süni intellekt tətbiqlərinə, azaldılmış əməliyyat mürəkkəbliyinə və böyük dil modellərini (BDM), multimodal süni intellekti və agent əsaslı iş axınlarını yerləşdirmək və işlətmək üçün əhəmiyyətli xərclərə qənaətə səbəb olur. Onların təkmilləşdirilmiş imkanları onları yüksək performanslı, sərfəli çıxarış tələb edən interaktiv tətbiqlər üçün ideal edir."
question: "Yeni G7e instansiyalarını hansı NVIDIA GPU təmin edir və onun əsas xüsusiyyətləri nələrdir?" answer: "Amazon SageMaker AI-da yeni G7e instansiyaları NVIDIA RTX PRO 6000 Blackwell Server Edition GPU-ları ilə təchiz edilmişdir. Bu qabaqcıl GPU-ların hər biri təsir edici 96 GB GDDR7 yaddaşı təmin edir ki, bu da əvvəlki G6e instansiyalarına nisbətən hər GPU üçün yaddaş tutumunu iki dəfə artırır. Əsas xüsusiyyətlərə həmçinin hər GPU üçün 1,597 GB/s GPU yaddaş bant genişliyi, beşinci nəsil Tensor Cores vasitəsilə FP4 dəqiqliyi dəstəyi və EFAv4 üzərindən NVIDIA GPUDirect RDMA daxildir. Bu xüsusiyyətlər birlikdə G7e instansiyalarının üstün çıxarış performansına, yaddaş sıxlığına və aşağı gecikməli şəbəkələşməsinə kömək edir, onları tələbkar generativ süni intellekt tapşırıqları üçün müstəsna dərəcədə bacarıqlı edir."
question: "G7e instansiyaları performans və yaddaş baxımından əvvəlki nəsillərlə (G6e, G5) necə müqayisə olunur?" answer: "G7e instansiyaları G6e və G5 üzərində əhəmiyyətli bir nəsil sıçrayışı nümayiş etdirir. Onlar G6e instansiyalarına nisbətən 2.3x-ə qədər daha sürətli çıxarış performansı təqdim edir. Yaddaş baxımından, hər bir G7e GPU 96 GB GDDR7 yaddaş təklif edir ki, bu da G6e-nin hər GPU üçün yaddaşını effektiv şəkildə iki dəfə, G5-in isə dörd dəfə artırır. Ən yüksək səviyyəli G7e.48xlarge instansiyası ümumilikdə 768 GB ümumi GPU yaddaşı təmin edir. Bundan əlavə, ən böyük G7e ölçüsündə EFA ilə şəbəkə bant genişliyi 1,600 Gbps-ə qədər artır ki, bu da G6e üzərində 4x və G5 üzərində 16x sıçrayışdır. Yaddaş, bant genişliyi və şəbəkələşmə sahəsindəki bu böyük təkmilləşmə G7e instansiyalarına əvvəllər köhnə instansiyalarda çoxdüyünlü qurğular tələb edən modelləri yerləşdirməyə imkan verir, bu da yerləşdirməni sadələşdirir və gecikməni azaldır."
question: "Hansı generativ süni intellekt iş yükləri G7e instansiyalarında yerləşdirmək üçün ən uyğundur?" answer: "G7e instansiyaları yüksək yaddaş sıxlığı, bant genişliyi və qabaqcıl şəbəkələşmə sayəsində müasir generativ süni intellekt iş yüklərinin geniş spektri üçün müstəsna dərəcədə uyğundur. Bunlara daxildir: Çatbotlar və Konversasiya Süni İntellekti, həssas interaktiv təcrübələr üçün aşağı İlk Tokenə Qədər Vaxt (TTFT) və yüksək ötürmə qabiliyyəti təmin edir; Agent əsaslı və Alət Çağırışı İş Axınları, RAG boru kəmərlərində sürətli kontekst daxil etmə üçün 4x təkmilləşdirilmiş CPU-dan-GPU-ya bant genişliyindən faydalanır; Mətn Generasiyası, Xülasələşdirmə və Uzun Kontekstli Çıxarış, 96 GB hər GPU yaddaşı ilə genişləndirilmiş sənəd kontekstləri üçün böyük KV keşləri yerləşdirir; Şəkil Generasiyası və Görmə Modelləri, əvvəlki instansiyalarda çətinlik çəkən daha böyük multimodal modellər üçün yaddaş çatışmazlığı səhvlərini aradan qaldırır; və Fiziki Süni İntellekt və Elmi Hesablama, rəqəmsal əkizlər və 3D simulyasiya üçün Blackwell nəsil hesablama, FP4 dəstəyi və məkan hesablama imkanlarından istifadə edir."
question: "Generativ süni intellekt çıxarışı üçün G7e instansiyalarının G6e ilə müqayisədə xərc səmərəliliyi nədir?" answer: "G7e instansiyaları G6e instansiyalarına nisbətən generativ süni intellekt çıxarışı üçün əhəmiyyətli dərəcədə təkmilləşdirilmiş xərc səmərəliliyi təklif edir. Qwen3-32B-ni yerləşdirmə testləri göstərdi ki, G7e istehsal yüklənməsində (C=32) bir milyon çıxış tokeni üçün $0.79-a nail olub. Bu, oxşar iş yükü üçün G6e-nin bir milyon çıxış tokeni üçün $2.06 ilə müqayisədə 2.6x əhəmiyyətli xərc azalmasını təmsil edir. Bu xərclərə qənaət əsasən G7e-nin əhəmiyyətli dərəcədə aşağı saatlıq qiyməti (məsələn, ml.g7e.2xlarge üçün $4.20/saat, ml.g6e.12xlarge üçün $13.12/saat ilə müqayisədə) ilə yanaşı, yük altında ardıcıl və yüksək ötürmə qabiliyyətini saxlamaq bacarığı ilə idarə olunur ki, bu da onu geniş miqyaslı yerləşdirmələr üçün daha iqtisadi seçim edir."
question: "Tək və çox-GPU G7e instansiyalarında BDM-ləri yerləşdirmək üçün yaddaş tutumları nələrdir?" answer: "G7e instansiyaları böyük dil modellərini (BDM) yerləşdirmək üçün əhəmiyyətli yaddaş tutumları təklif edir. Tək düyünlü bir GPU, xüsusilə G7e.2xlarge instansiyası, FP16 dəqiqliyində 35 milyard parametrə qədər fundamental modelləri effektiv şəkildə yerləşdirə bilər. Daha böyük modellər üçün, tək bir instansiya daxilində çoxlu GPU-lar arasında genişlənmə tutumu əhəmiyyətli dərəcədə artırır: 4-GPU düyünü (G7e.24xlarge) 150 milyard parametrə qədər modelləri yerləşdirə bilər, 8-GPU düyünü (G7e.48xlarge) isə 300 milyard parametrə qədər böyük modelləri idarə edə bilər. Bu təsir edici miqyaslılıq təşkilatlara çoxlu instansiyalı paylanmış qurğuların mürəkkəblikləri olmadan geniş çeşidli BDM-ləri yerləşdirmək üçün çeviklik təmin edir."
question: "Amazon SageMaker AI-da G7e instansiyalarından istifadə edərək həllər yerləşdirmək üçün hansı ilkin şərtlər var?" answer: "Amazon SageMaker AI-da G7e instansiyalarından istifadə edərək generativ süni intellekt həllərini yerləşdirmək üçün bir neçə ilkin şərt yerinə yetirilməlidir. Resurslarınızı yerləşdirmək üçün aktiv bir AWS hesabına və Amazon SageMaker AI xidmətlərinə daxil olmaq üçün müvafiq icazələrlə konfiqurasiya edilmiş bir AWS İdentifikasiya və Giriş İdarəetmə (IAM) roluna ehtiyacınız var. İnkişaf və yerləşdirmə üçün Amazon SageMaker Studio-ya və ya SageMaker notebook instansiyasına giriş tövsiyə olunur, baxmayaraq ki, PyCharm və ya Visual Studio Code kimi digər interaktiv inkişaf mühitləri də mümkündür. Ən əsası, Amazon SageMaker AI endpoint istifadəsi üçün AWS Service Quotas konsolu vasitəsilə ən azı bir 'ml.g7e.2xlarge' instansiyası (və ya daha böyük G7e instansiya növü) üçün kvota tələb etməlisiniz, çünki bunlar yeni və ixtisaslaşmış instansiya növləridir."

G7e İnstansiyaları: SageMaker-də Süni İntellekt Çıxarışı üçün Yeni Era

Generativ süni intellekt sahəsi görünməmiş sürətlə inkişaf edir, bu da daha güclü, çevik və səmərəli infrastruktur üçün davamlı tələbat yaradır. Bu gün Code Velocity AWS-dən əhəmiyyətli bir irəliləyiş haqqında məlumat verməkdən məmnundur: Amazon SageMaker AI-da G7e instansiyalarının ümumi əlçatanlığı. NVIDIA RTX PRO 6000 Blackwell Server Edition GPU-ları ilə təchiz edilmiş bu yeni instansiyalar, generativ süni intellekt çıxarışı üçün meyarları yenidən müəyyənləşdirərək, tərtibatçılara və müəssisələrə misilsiz performans və yaddaş tutumu təklif edir.

Amazon SageMaker AI, tərtibatçılara və məlumat alimlərinə maşın öyrənməsi modellərini geniş miqyasda qurmaq, öyrətmək və yerləşdirmək üçün alətlər təqdim edən tam idarə olunan bir xidmətdir. G7e instansiyalarının təqdimatı bu platformada generativ süni intellekt iş yükləri üçün əsaslı bir anı qeyd edir. Bu instansiyalar, hər biri təsir edici 96 GB GDDR7 yaddaşına malik qabaqcıl NVIDIA RTX PRO 6000 Blackwell GPU-larından istifadə edir. Bu əhəmiyyətli yaddaş artımı, daha böyük fundamental modellərin (FM) birbaşa SageMaker AI-da yerləşdirilməsinə imkan verir ki, bu da qabaqcıl süni intellekt tətbiqləri üçün kritik bir ehtiyacı qarşılayır.

Təşkilatlar artıq GPT-OSS-120B, Nemotron-3-Super-120B-A12B (NVFP4 variantı) və Qwen3.5-35B-A3B kimi modelləri heyrətamiz səmərəliliklə yerləşdirə bilərlər. Tək bir GPU-ya malik G7e.2xlarge instansiyası 35B parametrli modelləri yerləşdirə bilər, səkkiz GPU-ya malik G7e.48xlarge isə 300B parametrli modellərə qədər genişlənir. Bu çeviklik əhəmiyyətli faydalar deməkdir: azaldılmış əməliyyat mürəkkəbliyi, daha aşağı gecikmə və çıxarış iş yükləri üçün əhəmiyyətli xərclərə qənaət.

G7e-nin Nəsil Performans Sıçrayışını Açıklama

G7e instansiyaları özündən əvvəlki G6e və G5-dən böyük bir sıçrayışı təmsil edir, G6e ilə müqayisədə 2.3 dəfəyə qədər daha sürətli çıxarış performansı təmin edir. Texniki spesifikasiyalar bu nəsil inkişafı vurğulayır. Hər bir G7e GPU heyrətamiz 1,597 GB/s bant genişliyi təmin edir ki, bu da G6e-nin hər GPU üçün yaddaşını effektiv şəkildə iki dəfə, G5-in isə dörd dəfə artırır. Bundan əlavə, şəbəkə imkanları dramatik şəkildə təkmilləşdirilmişdir, ən böyük G7e ölçüsündə EFA ilə 1,600 Gbps-ə qədər genişlənir. G6e üzərindəki bu 4x artım və G5 üzərindəki 16x artım əvvəllər qeyri-praktik sayılan aşağı gecikməli çoxdüyünlü çıxarış və ince ayar ssenariləri üçün potensialı açır.

8-GPU səviyyəsində nəsillər üzrə irəliləyişi vurğulayan müqayisə aşağıdakıdır:

Xüsusiyyət	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
Hər GPU-da GPU Yaddaşı	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
Ümumi GPU Yaddaşı	192 GB	384 GB	768 GB
GPU Yaddaş Bant Genişliyi	Hər GPU üçün 600 GB/s	Hər GPU üçün 864 GB/s	Hər GPU üçün 1,597 GB/s
vCPU	192	192	192
Sistem Yaddaşı	768 GiB	1,536 GiB	2,048 GiB
Şəbəkə Bant Genişliyi	100 Gbps	400 Gbps	1,600 Gbps (EFA)
Yerli NVMe Saxlama	7.6 TB	7.6 TB	15.2 TB
G6e ilə müqayisədə çıxarış	Baza	~1x	2.3x-ə qədər

Tək bir G7e instansiyasında nəhəng 768 GB ümumi GPU yaddaşı ilə, bir zamanlar köhnə instansiyalarda mürəkkəb çoxdüyünlü konfiqurasiyaları tələb edən modellər indi heyrətamiz sadəliklə yerləşdirilə bilər. Bu, düyünlər arası gecikməni və əməliyyat xərclərini əhəmiyyətli dərəcədə azaldır. Beşinci nəsil Tensor Cores vasitəsilə FP4 dəqiqliyi dəstəyi və EFAv4 üzərindən NVIDIA GPUDirect RDMA ilə birlikdə, G7e instansiyaları AWS-də tələbkar BDM, multimodal süni intellekt və mürəkkəb agent əsaslı çıxarış iş axınları üçün birmənalı olaraq nəzərdə tutulmuşdur.

Müxtəlif Generativ Süni İntellekt İstifadə Halları G7e-də inkişaf edir

Yaddaş sıxlığı, bant genişliyi və qabaqcıl şəbəkə imkanlarının möhkəm birləşməsi G7e instansiyalarını müasir generativ süni intellekt iş yüklərinin geniş spektri üçün ideal edir. Konversasiya süni intellektini təkmilləşdirməkdən mürəkkəb fiziki simulyasiyaları təmin etməyə qədər, G7e əhəmiyyətli üstünlüklər təklif edir:

Çatbotlar və Konversasiya Süni İntellekti: G7e instansiyalarının aşağı İlk Tokenə Qədər Vaxt (TTFT) və yüksək ötürmə qabiliyyəti, hətta yüksək eyni vaxtda istifadəçi yükləri ilə qarşılaşdıqda belə, həssas və fasiləsiz interaktiv təcrübələr təmin edir. Bu, real-time süni intellekt qarşılıqlı əlaqələrində istifadəçi cəlbini və məmnuniyyətini qorumaq üçün çox vacibdir.
Agent əsaslı və Alət Çağırışı İş Axınları: Retrieval Augmented Generation (RAG) boru kəmərləri və agent əsaslı sistemlər üçün, geri çağırma anbarlarından sürətli kontekst daxil etmə əsasdır. G7e instansiyalarında CPU-dan-GPU-ya bant genişliyində 4x təkmilləşmə onları bu kritik əməliyyatlar üçün müstəsna dərəcədə effektiv edir, daha ağıllı və dinamik süni intellekt agentlərinə imkan verir.
Mətn Generasiyası, Xülasələşdirmə və Uzun Kontekstli Çıxarış: 96 GB hər GPU yaddaşı ilə G7e instansiyaları böyük Açar-Dəyər (KV) keşləri ilə ustalıqla işləyir. Bu, genişləndirilmiş sənəd kontekstlərini təmin edir, mətnin kəsilməsi ehtiyacını əhəmiyyətli dərəcədə azaldır və böyük girişlər üzərində daha zəngin, daha incə əsaslandırmanı asanlaşdırır.
Şəkil Generasiyası və Görmə Modelləri: Əvvəlki nəsil instansiyaların daha böyük multimodal modellərlə yaddaş çatışmazlığı səhvləri ilə tez-tez qarşılaşdığı yerlərdə, G7e-nin ikiqat artırılmış yaddaş tutumu bu məhdudiyyətləri asanlıqla aradan qaldırır, paving the way for more sophisticated and higher-resolution image and vision AI applications.
Fiziki Süni İntellekt və Elmi Hesablama: Ənənəvi generativ süni intellektdən başqa, G7e-nin Blackwell nəsil hesablama, FP4 dəstəyi və məkan hesablama imkanları (DLSS 4.0 və 4-cü nəsil RT nüvələri daxil olmaqla) onun faydasını rəqəmsal əkizlərə, 3D simulyasiyaya və qabaqcıl fiziki süni intellekt modeli çıxarışına qədər genişləndirərək, elmi araşdırmalar və sənaye tətbiqlərində yeni sərhədlər açır.

Sadələşdirilmiş Yerləşdirmə və Performans Testləri

Amazon SageMaker AI vasitəsilə G7e instansiyalarında generativ süni intellekt modellərini yerləşdirmək sadə olmaq üçün nəzərdə tutulmuşdur. İstifadəçilər prosesi sadələşdirən nümunə notebook-a buradan daxil ola bilərlər. İlkin şərtlər tipik olaraq AWS hesabı, SageMaker girişi üçün IAM rolu və inkişaf mühiti üçün Amazon SageMaker Studio və ya SageMaker notebook instansiyasını əhatə edir. Ən əsası, istifadəçilər AWS Service Quotas konsolu vasitəsilə SageMaker AI endpoint istifadəsi üçün ml.g7e.2xlarge və ya daha böyük instansiyalar üçün müvafiq kvota tələb etməlidirlər, çünki bunlar yeni və ixtisaslaşmış instansiya növləridir.

Əhəmiyyətli performans qazanclarını nümayiş etdirmək üçün AWS, Qwen3-32B (BF16) üzərində həm G6e, həm də G7e instansiyalarında testlər aparmışdır. İş yükü, ümumi sənəd xülasələşdirmə tapşırıqlarını təqlid edərək, təxminən 1,000 giriş tokeni və hər sorğu üçün 560 çıxış tokenini əhatə edirdi. Hər iki konfiqurasiya, müqayisənin obyektiv olmasını təmin etmək üçün prefix keşləməsi aktivləşdirilmiş yerli vLLM konteynerindən istifadə edirdi.

Nəticələr cəlbedicidir. G6e bazası (4x L40S GPU ilə ml.g6e.12xlarge, saatda $13.12) sorğu başına yüksək ötürmə qabiliyyəti göstərsə də, G7e (1x RTX PRO 6000 Blackwell ilə ml.g7e.2xlarge, saatda $4.20) dramatik şəkildə fərqli bir xərc mənzərəsini ortaya qoyur. İstehsal yüklənməsində (C=32), G7e bir milyon çıxış tokeni üçün heyrətamiz $0.79-a nail oldu. Bu, G6e-nin oxşar iş yükü üçün $2.06 ilə müqayisədə 2.6x xərc azalmasını təmsil edir, bu da G7e-nin aşağı saatlıq qiyməti və yük altında ardıcıl ötürmə qabiliyyətini saxlamaq bacarığı ilə idarə olunur, sübut edir ki, yüksək performans yüksək qiymətə olmaq məcburiyyətində deyil.

Səmərəli Generativ Süni İntellekt Çıxarışının Gələcəyi

Amazon SageMaker AI-da G7e instansiyalarının təqdimatı sadəcə tədrici bir təkmilləşdirmə deyil; bu, AWS tərəfindən yüksək performanslı generativ süni intellektə girişi demokratikləşdirmək üçün strateji bir addımdır. NVIDIA RTX PRO 6000 Blackwell GPU-larının xam gücünü SageMaker-in miqyaslılıq və idarəetmə imkanları ilə birləşdirərək, AWS bütün ölçülü təşkilatlara daha böyük, daha mürəkkəb süni intellekt modellərini misilsiz səmərəlilik və xərc-effektivliklə yerləşdirməyə imkan verir. Bu inkişaf generativ süni intellektdəki irəliləyişlərin geniş sənaye sahələrində praktik, istehsalata hazır tətbiqlərə çevrilə bilməsini təmin edir, SageMaker AI-ın süni intellekt innovasiyası üçün aparıcı platforma mövqeyini möhkəmləndirir.

Orijinal mənbə

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Tez-tez Verilən Suallar

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Xəbərdar olun

Ən son AI xəbərlərini e-poçtunuza alın.

Paylaş