title: "Üretken Yapay Zeka Çıkarımı: SageMaker'da G7e Örnekleri ile Hızlandırma" slug: "accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances" date: "2026-04-21" lang: "tr" source: "https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/" category: "Kurumsal Yapay Zeka" keywords:
- Üretken Yapay Zeka
- Yapay Zeka Çıkarımı
- Amazon SageMaker
- AWS G7e örnekleri
- NVIDIA RTX PRO 6000
- LLM dağıtımı
- Uygun maliyetli Yapay Zeka
- GPU belleği
- Blackwell
- vLLM
- Temel Modeller
- Ajan Odaklı İş Akışları meta_description: "NVIDIA RTX PRO 6000 Blackwell GPU'lar ile güçlendirilmiş yeni G7e örnekleri sayesinde Amazon SageMaker AI üzerinde üretken yapay zeka çıkarımını hızlandırın, 2.3 kat performans ve maliyet tasarrufu sağlayın." image: "/images/articles/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances.png" image_alt: "Amazon SageMaker AI G7e örnekleri, NVIDIA RTX PRO 6000 Blackwell GPU'lar ile üretken yapay zeka çıkarımını hızlandırıyor." quality_score: 94 content_score: 93 seo_score: 95 companies:
- AWS schema_type: "NewsArticle" reading_time: 4 faq:
- question: "G7e örnekleri nelerdir ve üretken yapay zeka çıkarımına nasıl fayda sağlarlar?" answer: "G7e örnekleri, Amazon SageMaker AI üzerinde bulunan, üretken yapay zeka çıkarım iş yüklerini hızlandırmak için özel olarak tasarlanmış en yeni nesil GPU hızlandırmalı bilgi işlem örnekleridir. NVIDIA RTX PRO 6000 Blackwell Server Edition GPU'lar ile güçlendirilmiş olup, bellek kapasitesi, bant genişliği ve genel çıkarım performansında önemli gelişmeler sunarlar. Üretken yapay zeka için G7e örnekleri, daha hızlı İlk Token'a Kadar Geçen Süre (TTFT), daha yüksek işlem hacmi ve çok daha büyük temel modelleri (FM'ler) tek bir örnek içinde, hatta tek bir GPU üzerinde barındırma yeteneği anlamına gelir. Bu da daha duyarlı yapay zeka uygulamaları, azaltılmış operasyonel karmaşıklık ve büyük dil modelleri (LLM'ler), çok modlu yapay zeka ve ajan odaklı iş akışlarını dağıtmak ve çalıştırmak için önemli maliyet tasarrufları sağlar. Gelişmiş yetenekleri, yüksek performanslı, uygun maliyetli çıkarım gerektiren etkileşimli uygulamalar için onları ideal kılar."
- question: "Yeni G7e örneklerine hangi NVIDIA GPU güç veriyor ve temel özellikleri nelerdir?" answer: "Amazon SageMaker AI üzerindeki yeni G7e örnekleri, NVIDIA RTX PRO 6000 Blackwell Server Edition GPU'lar tarafından desteklenmektedir. Bu son teknoloji GPU'ların her biri, önceki G6e örneklerine kıyasla GPU başına iki kat bellek kapasitesi sunan etkileyici 96 GB GDDR7 belleğe sahiptir. Temel özellikler arasında GPU başına 1.597 GB/sn GPU bellek bant genişliği, beşinci nesil Tensor Core'lar aracılığıyla FP4 hassasiyet desteği ve EFAv4 üzerinden NVIDIA GPUDirect RDMA bulunur. Bu özellikler toplu olarak G7e örneklerinin üstün çıkarım performansına, bellek yoğunluğuna ve düşük gecikmeli ağ bağlantısına katkıda bulunur, bu da onları zorlu üretken yapay zeka görevleri için son derece yetenekli kılar."
- question: "G7e örnekleri performans ve bellek açısından önceki nesillerle (G6e, G5) nasıl karşılaştırılır?" answer: "G7e örnekleri, G6e ve G5'e göre önemli bir nesilsel sıçrama göstermektedir. G6e örneklerine kıyasla 2.3 kata kadar çıkarım performansı sunarlar. Bellek açısından, her G7e GPU'su 96 GB GDDR7 bellek sunar; bu da G6e'nin GPU başına belleğini ikiye, G5'inkini ise dörde katlar. En üst düzey G7e.48xlarge örneği, toplamda 768 GB GPU belleği sağlar. Ayrıca, en büyük G7e boyutunda EFA ile ağ bant genişliği 1.600 Gbps'ye kadar ölçeklenir; bu, G6e'ye göre 4 kat, G5'e göre ise 16 kat artıştır. Bellek, bant genişliği ve ağ bağlantısındaki bu muazzam iyileşme, G7e örneklerinin daha önce eski örneklerde çoklu düğüm kurulumları gerektiren modelleri barındırmasına olanak tanıyarak dağıtımı basitleştirir ve gecikmeyi azaltır."
- question: "Hangi tür üretken yapay zeka iş yükleri, G7e örnekleri üzerinde dağıtım için en uygun olanlardır?" answer: "G7e örnekleri, yüksek bellek yoğunluğu, bant genişliği ve gelişmiş ağ bağlantısı sayesinde geniş bir modern üretken yapay zeka iş yükü yelpazesi için son derece uygundur. Bunlar şunları içerir: Sohbet robotları ve Konuşma Yapay Zekası, duyarlı etkileşimli deneyimler için düşük İlk Token'a Kadar Geçen Süre (TTFT) ve yüksek işlem hacmi sağlayarak; Ajan Odaklı ve Araç Çağırma İş Akışları, RAG boru hatlarında hızlı bağlam ekleme için 4 kat geliştirilmiş CPU-GPU bant genişliğinden faydalanarak; Metin Üretimi, Özetleme ve Uzun Bağlam Çıkarımı, 96 GB GPU başına bellek ile genişletilmiş belge bağlamları için büyük KV önbelleklerini barındırarak; Görüntü Üretimi ve Görsel Modeller, önceki örneklerde zorlanan daha büyük çok modlu modeller için bellek dışı hataları gidererek; ve Fiziksel Yapay Zeka ve Bilimsel Hesaplama, Blackwell nesli işlem gücü, FP4 desteği ve dijital ikizler ve 3D simülasyon için uzamsal hesaplama yeteneklerinden yararlanarak."
- question: "Üretken yapay zeka çıkarımı için G7e örneklerinin G6e'ye kıyasla maliyet etkinliği nedir?" answer: "G7e örnekleri, üretken yapay zeka çıkarımı için G6e örneklerine kıyasla önemli ölçüde gelişmiş maliyet etkinliği sunar. Qwen3-32B'yi dağıtan kıyaslamalar, G7e'nin üretim eşzamanlılığında (C=32) milyon çıktı token'ı başına 0.79 dolar elde ettiğini gösterdi. Bu, benzer bir iş yükü için G6e'nin milyon çıktı token'ı başına 2.06 dolarlık maliyetine kıyasla dikkate değer bir 2.6 kat maliyet azaltımını temsil eder. Bu maliyet tasarrufu, öncelikle G7e'nin önemli ölçüde daha düşük saatlik ücreti (örneğin, ml.g7e.2xlarge için 4.20 $/saat'e karşı ml.g6e.12xlarge için 13.12 $/saat) ve yük altında tutarlı ve yüksek işlem hacmini sürdürme yeteneği ile sağlanarak, büyük ölçekli dağıtımlar için daha ekonomik bir seçenek haline getirir."
- question: "Tek ve çoklu GPU G7e örneklerinde LLM'leri dağıtmak için bellek kapasiteleri nelerdir?" answer: "G7e örnekleri, büyük dil modellerini (LLM'ler) dağıtmak için önemli bellek kapasiteleri sunar. Tek düğümlü bir GPU, özellikle bir G7e.2xlarge örneği, FP16 hassasiyetinde 35 milyar parametreye kadar temel modelleri etkin bir şekilde barındırabilir. Daha büyük modeller için, tek bir örnek içinde birden fazla GPU'ya ölçekleme kapasiteyi önemli ölçüde artırır: 4 GPU'lu bir düğüm (G7e.24xlarge) 150 milyar parametreye kadar modelleri dağıtabilirken, 8 GPU'lu bir düğüm (G7e.48xlarge) 300 milyar parametreye kadar modelleri işleyebilir. Bu etkileyici ölçeklenebilirlik, kuruluşlara çoklu örnek dağıtılmış kurulumların karmaşıklığı olmadan geniş bir LLM yelpazesini dağıtma esnekliği sağlar."
- question: "Amazon SageMaker AI üzerinde G7e örneklerini kullanarak çözümleri dağıtmak için ön koşullar nelerdir?"
answer: "Amazon SageMaker AI üzerinde G7e örneklerini kullanarak üretken yapay zeka çözümlerini dağıtmak için birkaç ön koşulun karşılanması gerekir. Kaynaklarınızı barındırmak için aktif bir AWS hesabına ve Amazon SageMaker AI hizmetlerine erişim için uygun izinlerle yapılandırılmış bir AWS Kimlik ve Erişim Yönetimi (IAM) rolüne ihtiyacınız vardır. Geliştirme ve dağıtım için Amazon SageMaker Studio'ya veya bir SageMaker notebook örneğine erişim önerilir, ancak PyCharm veya Visual Studio Code gibi diğer etkileşimli geliştirme ortamları da kullanılabilir. En önemlisi, bunlar yeni ve özel örnek türleri olduğundan, AWS Hizmet Kotaları konsolu aracılığıyla Amazon SageMaker AI uç nokta kullanımı için en az bir
ml.g7e.2xlargeörneği (veya daha büyük bir G7e örnek türü) için kota talep etmelisiniz."
G7e Örnekleri: SageMaker'da Yapay Zeka Çıkarımı İçin Yeni Bir Çağ
Üretken yapay zeka ortamı eşi benzeri görülmemiş bir hızla gelişiyor ve daha güçlü, esnek ve uygun maliyetli altyapıya sürekli bir talep yaratıyor. Bugün Code Velocity, AWS'den önemli bir gelişmeyi duyurmaktan heyecan duyuyor: Amazon SageMaker AI üzerinde G7e örneklerinin genel kullanıma sunulması. NVIDIA RTX PRO 6000 Blackwell Server Edition GPU'lar ile güçlendirilen bu yeni örnekler, üretken yapay zeka çıkarımı için kıyaslamaları yeniden tanımlayacak ve geliştiricilere ve işletmelere eşsiz performans ve bellek kapasitesi sunacak.
Amazon SageMaker AI, geliştiricilere ve veri bilimcilerine makine öğrenimi modellerini büyük ölçekte oluşturma, eğitme ve dağıtma araçları sağlayan tamamen yönetilen bir hizmettir. G7e örneklerinin tanıtılması, bu platformdaki üretken yapay zeka iş yükleri için önemli bir anı işaret ediyor. Bu örnekler, her biri etkileyici 96 GB GDDR7 belleğe sahip son teknoloji NVIDIA RTX PRO 6000 Blackwell GPU'larından yararlanır. Bu önemli bellek artışı, daha büyük temel modellerin (FM'ler) doğrudan SageMaker AI üzerinde dağıtılmasına olanak tanır ve gelişmiş yapay zeka uygulamaları için kritik bir ihtiyacı karşılar.
Kuruluşlar artık GPT-OSS-120B, Nemotron-3-Super-120B-A12B (NVFP4 varyantı) ve Qwen3.5-35B-A3B gibi modelleri olağanüstü verimlilikle dağıtabilir. Tek bir GPU'ya sahip G7e.2xlarge örneği, 35B parametreli modelleri barındırabilirken, sekiz GPU'lu G7e.48xlarge, 300B parametreli modellere kadar ölçeklenebilir. Bu esneklik, somut faydalara dönüşür: azaltılmış operasyonel karmaşıklık, daha düşük gecikme süresi ve çıkarım iş yükleri için önemli maliyet tasarrufları.
G7e'nin Nesilsel Performans Sıçramasını Anlamak
G7e örnekleri, kendisinden önceki G6e ve G5'e göre muazzam bir sıçramayı temsil eder ve G6e'ye kıyasla 2.3 kat daha hızlı çıkarım performansı sunar. Teknik özellikler bu nesilsel ilerlemeyi vurgular. Her G7e GPU, şaşırtıcı 1.597 GB/sn bant genişliği sağlayarak G6e'nin GPU başına belleğini etkili bir şekilde ikiye katlar ve G5'inkini dörde katlar. Ayrıca, ağ yetenekleri önemli ölçüde geliştirilmiştir ve en büyük G7e boyutunda EFA ile 1.600 Gbps'ye kadar ölçeklenir. G6e'ye göre 4 kat, G5'e göre ise 16 kat artış, daha önce pratik olmayan düşük gecikmeli çoklu düğüm çıkarımı ve ince ayar senaryolarının potansiyelini ortaya çıkarır.
İşte 8-GPU katmanındaki nesiller arası ilerlemeyi vurgulayan bir karşılaştırma:
| Spec | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
|---|---|---|---|
| GPU | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| GPU Belleği (GPU başına) | 24 GB GDDR6 | 48 GB GDDR6 | 96 GB GDDR7 |
| Toplam GPU Belleği | 192 GB | 384 GB | 768 GB |
| GPU Bellek Bant Genişliği | GPU başına 600 GB/sn | GPU başına 864 GB/sn | GPU başına 1.597 GB/sn |
| vCPU'lar | 192 | 192 | 192 |
| Sistem Belleği | 768 GiB | 1.536 GiB | 2.048 GiB |
| Ağ Bant Genişliği | 100 Gbps | 400 Gbps | 1.600 Gbps (EFA) |
| Yerel NVMe Depolama | 7.6 TB | 7.6 TB | 15.2 TB |
| Çıkarım (G6e'ye kıyasla) | Temel | ~1x | 2.3 kata kadar |
Tek bir G7e örneğinde 768 GB'lık devasa toplam GPU belleği ile, eskiden karmaşık çoklu düğüm yapılandırmaları gerektiren modeller artık olağanüstü basitlikle dağıtılabilir. Bu, düğümler arası gecikmeyi ve operasyonel yükü önemli ölçüde azaltır. Beşinci nesil Tensor Core'lar aracılığıyla FP4 hassasiyet desteği ve EFAv4 üzerinden NVIDIA GPUDirect RDMA ile birlikte, G7e örnekleri, AWS'de zorlu LLM, çok modlu yapay zeka ve sofistike ajan odaklı çıkarım iş akışları için kesinlikle tasarlanmıştır.
G7e Üzerinde Çeşitli Üretken Yapay Zeka Kullanım Durumları Gelişiyor
Bellek yoğunluğu, bant genişliği ve gelişmiş ağ yeteneklerinin güçlü kombinasyonu, G7e örneklerini çok çeşitli çağdaş üretken yapay zeka iş yükleri için ideal hale getirir. Konuşma yapay zekasını geliştirmekten karmaşık fiziksel simülasyonlara güç vermeye kadar, G7e somut avantajlar sunar:
- Sohbet robotları ve Konuşma Yapay Zekası: G7e örneklerinin düşük İlk Token'a Kadar Geçen Süre (TTFT) ve yüksek işlem hacmi, yoğun eşzamanlı kullanıcı yükleriyle karşılaşıldığında bile duyarlı ve sorunsuz etkileşimli deneyimler sağlar. Bu, gerçek zamanlı yapay zeka etkileşimlerinde kullanıcı katılımını ve memnuniyetini sürdürmek için çok önemlidir.
- Ajan Odaklı ve Araç Çağırma İş Akışları: Geri Çağırma Artırılmış Üretim (RAG) boru hatları ve ajan odaklı sistemler için, geri çağırma depolarından hızlı bağlam ekleme çok önemlidir. G7e örnekleri içindeki CPU-GPU bant genişliğindeki 4 kat iyileşme, bu kritik işlemler için onları son derece etkili kılar ve daha akıllı ve dinamik yapay zeka ajanlarına olanak tanır.
- Metin Üretimi, Özetleme ve Uzun Bağlam Çıkarımı: GPU başına 96 GB bellek ile G7e örnekleri, büyük Anahtar-Değer (KV) önbelleklerini ustaca yönetir. Bu, genişletilmiş belge bağlamlarına olanak tanır, metin kesme ihtiyacını önemli ölçüde azaltır ve geniş girdiler üzerinde daha zengin, daha incelikli akıl yürütmeyi kolaylaştırır.
- Görüntü Üretimi ve Görsel Modeller: Önceki nesil örneklerin daha büyük çok modlu modellerle sık sık bellek dışı hatalar yaşadığı durumlarda, G7e'nin iki katına çıkan bellek kapasitesi bu sınırlamaları sorunsuz bir şekilde çözer ve daha sofistike ve yüksek çözünürlüklü görüntü ve görsel yapay zeka uygulamalarının önünü açar.
- Fiziksel Yapay Zeka ve Bilimsel Hesaplama: Geleneksel üretken yapay zekanın ötesinde, G7e'nin Blackwell nesli işlem gücü, FP4 desteği ve uzamsal hesaplama yetenekleri (DLSS 4.0 ve 4. nesil RT çekirdekleri dahil), dijital ikizlere, 3D simülasyona ve gelişmiş fiziksel yapay zeka modeli çıkarımına kadar uzanır, bilimsel araştırma ve endüstriyel uygulamalarda yeni ufuklar açar.
Kolaylaştırılmış Dağıtım ve Performans Kıyaslaması
Amazon SageMaker AI aracılığıyla G7e örnekleri üzerinde üretken yapay zeka modellerini dağıtmak basit olacak şekilde tasarlanmıştır. Kullanıcılar, süreci kolaylaştıran buradaki örnek bir not defterine erişebilirler. Ön koşullar tipik olarak bir AWS hesabı, SageMaker erişimi için bir IAM rolü ve geliştirme ortamı için Amazon SageMaker Studio veya bir SageMaker notebook örneğini içerir. Önemli olarak, kullanıcılar Hizmet Kotaları konsolu aracılığıyla SageMaker AI uç nokta kullanımı için ml.g7e.2xlarge veya daha büyük örnekler için uygun bir kota talep etmelidir.
Önemli performans artışlarını göstermek için AWS, Qwen3-32B'yi (BF16) hem G6e hem de G7e örnekleri üzerinde kıyasladı. İş yükü, yaygın belge özetleme görevlerini taklit eden yaklaşık 1.000 giriş token'ı ve istek başına 560 çıktı token'ı içeriyordu. Her iki yapılandırma da, adil bir karşılaştırma sağlamak için önek önbelleklemesi etkinleştirilmiş yerel vLLM kapsayıcısını kullandı.
Sonuçlar çok çarpıcı. G6e temel seviyesi (4x L40S GPU'lu ml.g6e.12xlarge, saatlik 13.12$) istek başına güçlü bir işlem hacmi gösterirken, G7e (1x RTX PRO 6000 Blackwell'li ml.g7e.2xlarge, saatlik 4.20$) dramatik bir şekilde farklı bir maliyet hikayesi anlatıyor. Üretim eşzamanlılığında (C=32), G7e milyon çıktı token'ı başına şaşırtıcı bir 0.79$ elde etti. Bu, G7e'nin daha düşük saatlik ücreti ve yük altında tutarlı işlem hacmini sürdürme yeteneği sayesinde G6e'nin 2.06$'ına kıyasla 2.6 kat maliyet azaltımını temsil ediyor ve yüksek performansın yüksek maliyetle gelmek zorunda olmadığını kanıtlıyor.
Uygun Maliyetli Üretken Yapay Zeka Çıkarımının Geleceği
Amazon SageMaker AI üzerinde G7e örneklerinin tanıtılması, sadece kademeli bir yükseltmeden daha fazlasıdır; AWS tarafından yüksek performanslı üretken yapay zekaya erişimi demokratikleştirmek için stratejik bir hamledir. NVIDIA RTX PRO 6000 Blackwell GPU'larının ham gücünü SageMaker'ın ölçeklenebilirlik ve yönetim yetenekleriyle birleştirerek, AWS her büyüklükteki kuruluşa daha büyük, daha karmaşık yapay zeka modellerini eşi benzeri görülmemiş verimlilik ve maliyet etkinliğiyle dağıtma olanağı sağlıyor. Bu gelişme, üretken yapay zekadaki ilerlemelerin geniş bir endüstri yelpazesinde pratik, üretime hazır uygulamalara dönüştürülebilmesini sağlayarak, SageMaker AI'nin yapay zeka inovasyonunda lider bir platform olarak konumunu sağlamlaştırıyor.
Orijinal kaynak
https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/Sık Sorulan Sorular
What are G7e instances and how do they benefit generative AI inference?
Which NVIDIA GPU powers the new G7e instances, and what are its key features?
How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?
What types of generative AI workloads are best suited for deployment on G7e instances?
What is the cost efficiency of G7e instances compared to G6e for generative AI inference?
What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?
What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?
Güncel Kalın
En son yapay zeka haberlerini e-postanıza alın.
