title: "Generativ Süni İntellekt Çıxarışı: SageMaker-də G7e İnstansiyaları ilə Sürətləndirmə" slug: "accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances" date: "2026-04-21" lang: "az" source: "https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/" category: "Korporativ Süni İntellekt" keywords:
- Generativ Süni İntellekt
- Süni İntellekt Çıxarışı
- Amazon SageMaker
- AWS G7e instansiyaları
- NVIDIA RTX PRO 6000
- Böyük Dil Modellərinin (BDM) yerləşdirilməsi
- Səmərəli Süni İntellekt
- GPU yaddaşı
- Blackwell
- vLLM
- Fundamental Modellər
- Agent əsaslı İş Axınları meta_description: "Amazon SageMaker AI-də generativ süni intellekt çıxarışını NVIDIA RTX PRO 6000 Blackwell GPU-ları ilə təchiz edilmiş yeni G7e instansiyaları ilə sürətləndirin, 2.3x performans və xərcə qənaət təklif edir." image: "/images/articles/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances.png" image_alt: "Amazon SageMaker AI G7e instansiyaları NVIDIA RTX PRO 6000 Blackwell GPU-ları ilə generativ süni intellekt çıxarışını sürətləndirir." quality_score: 94 content_score: 93 seo_score: 95 companies:
- AWS schema_type: "NewsArticle" reading_time: 4 faq:
- question: "G7e instansiyaları nədir və generativ süni intellekt çıxarışı üçün hansı faydaları var?" answer: "G7e instansiyaları Amazon SageMaker AI-da mövcud olan GPU ilə sürətləndirilmiş hesablama instansiyalarının ən son nəslidir və xüsusilə generativ süni intellekt çıxarışı iş yüklərini sürətləndirmək üçün nəzərdə tutulmuşdur. Onlar NVIDIA RTX PRO 6000 Blackwell Server Edition GPU-ları ilə təchiz edilmişdir, yaddaş tutumu, bant genişliyi və ümumi çıxarış performansında əhəmiyyətli irəliləyişlər təklif edir. Generativ süni intellekt üçün G7e instansiyaları daha sürətli İlk Tokenə Qədər Vaxt (TTFT), daha yüksək ötürmə qabiliyyəti və daha böyük fundamental modelləri (FM) tək bir instansiya daxilində və ya hətta tək bir GPU-da yerləşdirmə imkanı deməkdir. Bu, daha həssas süni intellekt tətbiqlərinə, azaldılmış əməliyyat mürəkkəbliyinə və böyük dil modellərini (BDM), multimodal süni intellekti və agent əsaslı iş axınlarını yerləşdirmək və işlətmək üçün əhəmiyyətli xərclərə qənaətə səbəb olur. Onların təkmilləşdirilmiş imkanları onları yüksək performanslı, sərfəli çıxarış tələb edən interaktiv tətbiqlər üçün ideal edir."
- question: "Yeni G7e instansiyalarını hansı NVIDIA GPU təmin edir və onun əsas xüsusiyyətləri nələrdir?" answer: "Amazon SageMaker AI-da yeni G7e instansiyaları NVIDIA RTX PRO 6000 Blackwell Server Edition GPU-ları ilə təchiz edilmişdir. Bu qabaqcıl GPU-ların hər biri təsir edici 96 GB GDDR7 yaddaşı təmin edir ki, bu da əvvəlki G6e instansiyalarına nisbətən hər GPU üçün yaddaş tutumunu iki dəfə artırır. Əsas xüsusiyyətlərə həmçinin hər GPU üçün 1,597 GB/s GPU yaddaş bant genişliyi, beşinci nəsil Tensor Cores vasitəsilə FP4 dəqiqliyi dəstəyi və EFAv4 üzərindən NVIDIA GPUDirect RDMA daxildir. Bu xüsusiyyətlər birlikdə G7e instansiyalarının üstün çıxarış performansına, yaddaş sıxlığına və aşağı gecikməli şəbəkələşməsinə kömək edir, onları tələbkar generativ süni intellekt tapşırıqları üçün müstəsna dərəcədə bacarıqlı edir."
- question: "G7e instansiyaları performans və yaddaş baxımından əvvəlki nəsillərlə (G6e, G5) necə müqayisə olunur?" answer: "G7e instansiyaları G6e və G5 üzərində əhəmiyyətli bir nəsil sıçrayışı nümayiş etdirir. Onlar G6e instansiyalarına nisbətən 2.3x-ə qədər daha sürətli çıxarış performansı təqdim edir. Yaddaş baxımından, hər bir G7e GPU 96 GB GDDR7 yaddaş təklif edir ki, bu da G6e-nin hər GPU üçün yaddaşını effektiv şəkildə iki dəfə, G5-in isə dörd dəfə artırır. Ən yüksək səviyyəli G7e.48xlarge instansiyası ümumilikdə 768 GB ümumi GPU yaddaşı təmin edir. Bundan əlavə, ən böyük G7e ölçüsündə EFA ilə şəbəkə bant genişliyi 1,600 Gbps-ə qədər artır ki, bu da G6e üzərində 4x və G5 üzərində 16x sıçrayışdır. Yaddaş, bant genişliyi və şəbəkələşmə sahəsindəki bu böyük təkmilləşmə G7e instansiyalarına əvvəllər köhnə instansiyalarda çoxdüyünlü qurğular tələb edən modelləri yerləşdirməyə imkan verir, bu da yerləşdirməni sadələşdirir və gecikməni azaldır."
- question: "Hansı generativ süni intellekt iş yükləri G7e instansiyalarında yerləşdirmək üçün ən uyğundur?" answer: "G7e instansiyaları yüksək yaddaş sıxlığı, bant genişliyi və qabaqcıl şəbəkələşmə sayəsində müasir generativ süni intellekt iş yüklərinin geniş spektri üçün müstəsna dərəcədə uyğundur. Bunlara daxildir: Çatbotlar və Konversasiya Süni İntellekti, həssas interaktiv təcrübələr üçün aşağı İlk Tokenə Qədər Vaxt (TTFT) və yüksək ötürmə qabiliyyəti təmin edir; Agent əsaslı və Alət Çağırışı İş Axınları, RAG boru kəmərlərində sürətli kontekst daxil etmə üçün 4x təkmilləşdirilmiş CPU-dan-GPU-ya bant genişliyindən faydalanır; Mətn Generasiyası, Xülasələşdirmə və Uzun Kontekstli Çıxarış, 96 GB hər GPU yaddaşı ilə genişləndirilmiş sənəd kontekstləri üçün böyük KV keşləri yerləşdirir; Şəkil Generasiyası və Görmə Modelləri, əvvəlki instansiyalarda çətinlik çəkən daha böyük multimodal modellər üçün yaddaş çatışmazlığı səhvlərini aradan qaldırır; və Fiziki Süni İntellekt və Elmi Hesablama, rəqəmsal əkizlər və 3D simulyasiya üçün Blackwell nəsil hesablama, FP4 dəstəyi və məkan hesablama imkanlarından istifadə edir."
- question: "Generativ süni intellekt çıxarışı üçün G7e instansiyalarının G6e ilə müqayisədə xərc səmərəliliyi nədir?" answer: "G7e instansiyaları G6e instansiyalarına nisbətən generativ süni intellekt çıxarışı üçün əhəmiyyətli dərəcədə təkmilləşdirilmiş xərc səmərəliliyi təklif edir. Qwen3-32B-ni yerləşdirmə testləri göstərdi ki, G7e istehsal yüklənməsində (C=32) bir milyon çıxış tokeni üçün $0.79-a nail olub. Bu, oxşar iş yükü üçün G6e-nin bir milyon çıxış tokeni üçün $2.06 ilə müqayisədə 2.6x əhəmiyyətli xərc azalmasını təmsil edir. Bu xərclərə qənaət əsasən G7e-nin əhəmiyyətli dərəcədə aşağı saatlıq qiyməti (məsələn, ml.g7e.2xlarge üçün $4.20/saat, ml.g6e.12xlarge üçün $13.12/saat ilə müqayisədə) ilə yanaşı, yük altında ardıcıl və yüksək ötürmə qabiliyyətini saxlamaq bacarığı ilə idarə olunur ki, bu da onu geniş miqyaslı yerləşdirmələr üçün daha iqtisadi seçim edir."
- question: "Tək və çox-GPU G7e instansiyalarında BDM-ləri yerləşdirmək üçün yaddaş tutumları nələrdir?" answer: "G7e instansiyaları böyük dil modellərini (BDM) yerləşdirmək üçün əhəmiyyətli yaddaş tutumları təklif edir. Tək düyünlü bir GPU, xüsusilə G7e.2xlarge instansiyası, FP16 dəqiqliyində 35 milyard parametrə qədər fundamental modelləri effektiv şəkildə yerləşdirə bilər. Daha böyük modellər üçün, tək bir instansiya daxilində çoxlu GPU-lar arasında genişlənmə tutumu əhəmiyyətli dərəcədə artırır: 4-GPU düyünü (G7e.24xlarge) 150 milyard parametrə qədər modelləri yerləşdirə bilər, 8-GPU düyünü (G7e.48xlarge) isə 300 milyard parametrə qədər böyük modelləri idarə edə bilər. Bu təsir edici miqyaslılıq təşkilatlara çoxlu instansiyalı paylanmış qurğuların mürəkkəblikləri olmadan geniş çeşidli BDM-ləri yerləşdirmək üçün çeviklik təmin edir."
- question: "Amazon SageMaker AI-da G7e instansiyalarından istifadə edərək həllər yerləşdirmək üçün hansı ilkin şərtlər var?" answer: "Amazon SageMaker AI-da G7e instansiyalarından istifadə edərək generativ süni intellekt həllərini yerləşdirmək üçün bir neçə ilkin şərt yerinə yetirilməlidir. Resurslarınızı yerləşdirmək üçün aktiv bir AWS hesabına və Amazon SageMaker AI xidmətlərinə daxil olmaq üçün müvafiq icazələrlə konfiqurasiya edilmiş bir AWS İdentifikasiya və Giriş İdarəetmə (IAM) roluna ehtiyacınız var. İnkişaf və yerləşdirmə üçün Amazon SageMaker Studio-ya və ya SageMaker notebook instansiyasına giriş tövsiyə olunur, baxmayaraq ki, PyCharm və ya Visual Studio Code kimi digər interaktiv inkişaf mühitləri də mümkündür. Ən əsası, Amazon SageMaker AI endpoint istifadəsi üçün AWS Service Quotas konsolu vasitəsilə ən azı bir 'ml.g7e.2xlarge' instansiyası (və ya daha böyük G7e instansiya növü) üçün kvota tələb etməlisiniz, çünki bunlar yeni və ixtisaslaşmış instansiya növləridir."
G7e İnstansiyaları: SageMaker-də Süni İntellekt Çıxarışı üçün Yeni Era
Generativ süni intellekt sahəsi görünməmiş sürətlə inkişaf edir, bu da daha güclü, çevik və səmərəli infrastruktur üçün davamlı tələbat yaradır. Bu gün Code Velocity AWS-dən əhəmiyyətli bir irəliləyiş haqqında məlumat verməkdən məmnundur: Amazon SageMaker AI-da G7e instansiyalarının ümumi əlçatanlığı. NVIDIA RTX PRO 6000 Blackwell Server Edition GPU-ları ilə təchiz edilmiş bu yeni instansiyalar, generativ süni intellekt çıxarışı üçün meyarları yenidən müəyyənləşdirərək, tərtibatçılara və müəssisələrə misilsiz performans və yaddaş tutumu təklif edir.
Amazon SageMaker AI, tərtibatçılara və məlumat alimlərinə maşın öyrənməsi modellərini geniş miqyasda qurmaq, öyrətmək və yerləşdirmək üçün alətlər təqdim edən tam idarə olunan bir xidmətdir. G7e instansiyalarının təqdimatı bu platformada generativ süni intellekt iş yükləri üçün əsaslı bir anı qeyd edir. Bu instansiyalar, hər biri təsir edici 96 GB GDDR7 yaddaşına malik qabaqcıl NVIDIA RTX PRO 6000 Blackwell GPU-larından istifadə edir. Bu əhəmiyyətli yaddaş artımı, daha böyük fundamental modellərin (FM) birbaşa SageMaker AI-da yerləşdirilməsinə imkan verir ki, bu da qabaqcıl süni intellekt tətbiqləri üçün kritik bir ehtiyacı qarşılayır.
Təşkilatlar artıq GPT-OSS-120B, Nemotron-3-Super-120B-A12B (NVFP4 variantı) və Qwen3.5-35B-A3B kimi modelləri heyrətamiz səmərəliliklə yerləşdirə bilərlər. Tək bir GPU-ya malik G7e.2xlarge instansiyası 35B parametrli modelləri yerləşdirə bilər, səkkiz GPU-ya malik G7e.48xlarge isə 300B parametrli modellərə qədər genişlənir. Bu çeviklik əhəmiyyətli faydalar deməkdir: azaldılmış əməliyyat mürəkkəbliyi, daha aşağı gecikmə və çıxarış iş yükləri üçün əhəmiyyətli xərclərə qənaət.
G7e-nin Nəsil Performans Sıçrayışını Açıklama
G7e instansiyaları özündən əvvəlki G6e və G5-dən böyük bir sıçrayışı təmsil edir, G6e ilə müqayisədə 2.3 dəfəyə qədər daha sürətli çıxarış performansı təmin edir. Texniki spesifikasiyalar bu nəsil inkişafı vurğulayır. Hər bir G7e GPU heyrətamiz 1,597 GB/s bant genişliyi təmin edir ki, bu da G6e-nin hər GPU üçün yaddaşını effektiv şəkildə iki dəfə, G5-in isə dörd dəfə artırır. Bundan əlavə, şəbəkə imkanları dramatik şəkildə təkmilləşdirilmişdir, ən böyük G7e ölçüsündə EFA ilə 1,600 Gbps-ə qədər genişlənir. G6e üzərindəki bu 4x artım və G5 üzərindəki 16x artım əvvəllər qeyri-praktik sayılan aşağı gecikməli çoxdüyünlü çıxarış və ince ayar ssenariləri üçün potensialı açır.
8-GPU səviyyəsində nəsillər üzrə irəliləyişi vurğulayan müqayisə aşağıdakıdır:
| Xüsusiyyət | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
|---|---|---|---|
| GPU | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| Hər GPU-da GPU Yaddaşı | 24 GB GDDR6 | 48 GB GDDR6 | 96 GB GDDR7 |
| Ümumi GPU Yaddaşı | 192 GB | 384 GB | 768 GB |
| GPU Yaddaş Bant Genişliyi | Hər GPU üçün 600 GB/s | Hər GPU üçün 864 GB/s | Hər GPU üçün 1,597 GB/s |
| vCPU | 192 | 192 | 192 |
| Sistem Yaddaşı | 768 GiB | 1,536 GiB | 2,048 GiB |
| Şəbəkə Bant Genişliyi | 100 Gbps | 400 Gbps | 1,600 Gbps (EFA) |
| Yerli NVMe Saxlama | 7.6 TB | 7.6 TB | 15.2 TB |
| G6e ilə müqayisədə çıxarış | Baza | ~1x | 2.3x-ə qədər |
Tək bir G7e instansiyasında nəhəng 768 GB ümumi GPU yaddaşı ilə, bir zamanlar köhnə instansiyalarda mürəkkəb çoxdüyünlü konfiqurasiyaları tələb edən modellər indi heyrətamiz sadəliklə yerləşdirilə bilər. Bu, düyünlər arası gecikməni və əməliyyat xərclərini əhəmiyyətli dərəcədə azaldır. Beşinci nəsil Tensor Cores vasitəsilə FP4 dəqiqliyi dəstəyi və EFAv4 üzərindən NVIDIA GPUDirect RDMA ilə birlikdə, G7e instansiyaları AWS-də tələbkar BDM, multimodal süni intellekt və mürəkkəb agent əsaslı çıxarış iş axınları üçün birmənalı olaraq nəzərdə tutulmuşdur.
Müxtəlif Generativ Süni İntellekt İstifadə Halları G7e-də inkişaf edir
Yaddaş sıxlığı, bant genişliyi və qabaqcıl şəbəkə imkanlarının möhkəm birləşməsi G7e instansiyalarını müasir generativ süni intellekt iş yüklərinin geniş spektri üçün ideal edir. Konversasiya süni intellektini təkmilləşdirməkdən mürəkkəb fiziki simulyasiyaları təmin etməyə qədər, G7e əhəmiyyətli üstünlüklər təklif edir:
- Çatbotlar və Konversasiya Süni İntellekti: G7e instansiyalarının aşağı İlk Tokenə Qədər Vaxt (TTFT) və yüksək ötürmə qabiliyyəti, hətta yüksək eyni vaxtda istifadəçi yükləri ilə qarşılaşdıqda belə, həssas və fasiləsiz interaktiv təcrübələr təmin edir. Bu, real-time süni intellekt qarşılıqlı əlaqələrində istifadəçi cəlbini və məmnuniyyətini qorumaq üçün çox vacibdir.
- Agent əsaslı və Alət Çağırışı İş Axınları: Retrieval Augmented Generation (RAG) boru kəmərləri və agent əsaslı sistemlər üçün, geri çağırma anbarlarından sürətli kontekst daxil etmə əsasdır. G7e instansiyalarında CPU-dan-GPU-ya bant genişliyində 4x təkmilləşmə onları bu kritik əməliyyatlar üçün müstəsna dərəcədə effektiv edir, daha ağıllı və dinamik süni intellekt agentlərinə imkan verir.
- Mətn Generasiyası, Xülasələşdirmə və Uzun Kontekstli Çıxarış: 96 GB hər GPU yaddaşı ilə G7e instansiyaları böyük Açar-Dəyər (KV) keşləri ilə ustalıqla işləyir. Bu, genişləndirilmiş sənəd kontekstlərini təmin edir, mətnin kəsilməsi ehtiyacını əhəmiyyətli dərəcədə azaldır və böyük girişlər üzərində daha zəngin, daha incə əsaslandırmanı asanlaşdırır.
- Şəkil Generasiyası və Görmə Modelləri: Əvvəlki nəsil instansiyaların daha böyük multimodal modellərlə yaddaş çatışmazlığı səhvləri ilə tez-tez qarşılaşdığı yerlərdə, G7e-nin ikiqat artırılmış yaddaş tutumu bu məhdudiyyətləri asanlıqla aradan qaldırır, paving the way for more sophisticated and higher-resolution image and vision AI applications.
- Fiziki Süni İntellekt və Elmi Hesablama: Ənənəvi generativ süni intellektdən başqa, G7e-nin Blackwell nəsil hesablama, FP4 dəstəyi və məkan hesablama imkanları (DLSS 4.0 və 4-cü nəsil RT nüvələri daxil olmaqla) onun faydasını rəqəmsal əkizlərə, 3D simulyasiyaya və qabaqcıl fiziki süni intellekt modeli çıxarışına qədər genişləndirərək, elmi araşdırmalar və sənaye tətbiqlərində yeni sərhədlər açır.
Sadələşdirilmiş Yerləşdirmə və Performans Testləri
Amazon SageMaker AI vasitəsilə G7e instansiyalarında generativ süni intellekt modellərini yerləşdirmək sadə olmaq üçün nəzərdə tutulmuşdur. İstifadəçilər prosesi sadələşdirən nümunə notebook-a buradan daxil ola bilərlər. İlkin şərtlər tipik olaraq AWS hesabı, SageMaker girişi üçün IAM rolu və inkişaf mühiti üçün Amazon SageMaker Studio və ya SageMaker notebook instansiyasını əhatə edir. Ən əsası, istifadəçilər AWS Service Quotas konsolu vasitəsilə SageMaker AI endpoint istifadəsi üçün ml.g7e.2xlarge və ya daha böyük instansiyalar üçün müvafiq kvota tələb etməlidirlər, çünki bunlar yeni və ixtisaslaşmış instansiya növləridir.
Əhəmiyyətli performans qazanclarını nümayiş etdirmək üçün AWS, Qwen3-32B (BF16) üzərində həm G6e, həm də G7e instansiyalarında testlər aparmışdır. İş yükü, ümumi sənəd xülasələşdirmə tapşırıqlarını təqlid edərək, təxminən 1,000 giriş tokeni və hər sorğu üçün 560 çıxış tokenini əhatə edirdi. Hər iki konfiqurasiya, müqayisənin obyektiv olmasını təmin etmək üçün prefix keşləməsi aktivləşdirilmiş yerli vLLM konteynerindən istifadə edirdi.
Nəticələr cəlbedicidir. G6e bazası (4x L40S GPU ilə ml.g6e.12xlarge, saatda $13.12) sorğu başına yüksək ötürmə qabiliyyəti göstərsə də, G7e (1x RTX PRO 6000 Blackwell ilə ml.g7e.2xlarge, saatda $4.20) dramatik şəkildə fərqli bir xərc mənzərəsini ortaya qoyur. İstehsal yüklənməsində (C=32), G7e bir milyon çıxış tokeni üçün heyrətamiz $0.79-a nail oldu. Bu, G6e-nin oxşar iş yükü üçün $2.06 ilə müqayisədə 2.6x xərc azalmasını təmsil edir, bu da G7e-nin aşağı saatlıq qiyməti və yük altında ardıcıl ötürmə qabiliyyətini saxlamaq bacarığı ilə idarə olunur, sübut edir ki, yüksək performans yüksək qiymətə olmaq məcburiyyətində deyil.
Səmərəli Generativ Süni İntellekt Çıxarışının Gələcəyi
Amazon SageMaker AI-da G7e instansiyalarının təqdimatı sadəcə tədrici bir təkmilləşdirmə deyil; bu, AWS tərəfindən yüksək performanslı generativ süni intellektə girişi demokratikləşdirmək üçün strateji bir addımdır. NVIDIA RTX PRO 6000 Blackwell GPU-larının xam gücünü SageMaker-in miqyaslılıq və idarəetmə imkanları ilə birləşdirərək, AWS bütün ölçülü təşkilatlara daha böyük, daha mürəkkəb süni intellekt modellərini misilsiz səmərəlilik və xərc-effektivliklə yerləşdirməyə imkan verir. Bu inkişaf generativ süni intellektdəki irəliləyişlərin geniş sənaye sahələrində praktik, istehsalata hazır tətbiqlərə çevrilə bilməsini təmin edir, SageMaker AI-ın süni intellekt innovasiyası üçün aparıcı platforma mövqeyini möhkəmləndirir.
Orijinal mənbə
https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/Tez-tez Verilən Suallar
What are G7e instances and how do they benefit generative AI inference?
Which NVIDIA GPU powers the new G7e instances, and what are its key features?
How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?
What types of generative AI workloads are best suited for deployment on G7e instances?
What is the cost efficiency of G7e instances compared to G6e for generative AI inference?
What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?
What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?
Xəbərdar olun
Ən son AI xəbərlərini e-poçtunuza alın.
