الاستدلال التوليدي للذكاء الاصطناعي: التسريع على SageMaker باستخدام مثيلات G7e

title: "الاستدلال التوليدي للذكاء الاصطناعي: التسريع على SageMaker باستخدام مثيلات G7e" slug: "accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances" date: "2026-04-21" lang: "ar" source: "https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/" category: "الذكاء الاصطناعي للمؤسسات" keywords:

الذكاء الاصطناعي التوليدي
استدلال الذكاء الاصطناعي
Amazon SageMaker
مثيلات AWS G7e
NVIDIA RTX PRO 6000
نشر نماذج اللغة الكبيرة
ذكاء اصطناعي فعال من حيث التكلفة
ذاكرة وحدات معالجة الرسوميات
Blackwell
vLLM
النماذج التأسيسية
سير العمل القائم على الوكلاء meta_description: "عجل من استدلال الذكاء الاصطناعي التوليدي على Amazon SageMaker AI باستخدام مثيلات G7e الجديدة، المدعومة بوحدات معالجة الرسوميات NVIDIA RTX PRO 6000 Blackwell، والتي توفر أداءً أفضل بمقدار 2.3 مرة وتوفيرًا في التكاليف." image: "/images/articles/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances.png" image_alt: "مثيلات Amazon SageMaker AI G7e تسرّع استدلال الذكاء الاصطناعي التوليدي باستخدام وحدات معالجة الرسوميات NVIDIA RTX PRO 6000 Blackwell." quality_score: 94 content_score: 93 seo_score: 95 companies:
AWS schema_type: "NewsArticle" reading_time: 4 faq:
question: "ما هي مثيلات G7e وكيف تفيد استدلال الذكاء الاصطناعي التوليدي؟" answer: "مثيلات G7e هي أحدث جيل من مثيلات الحوسبة المسرّعة بوحدات معالجة الرسوميات المتاحة على Amazon SageMaker AI، وهي مصممة خصيصًا لتسريع أعباء عمل استدلال الذكاء الاصطناعي التوليدي. إنها مدعومة بوحدات معالجة الرسوميات NVIDIA RTX PRO 6000 Blackwell Server Edition، وتوفر تحسينات كبيرة في سعة الذاكرة وعرض النطاق الترددي والأداء العام للاستدلال. بالنسبة للذكاء الاصطناعي التوليدي، تعني مثيلات G7e وقتًا أسرع لأول رمز (TTFT)، وإنتاجية أعلى، والقدرة على استضافة نماذج تأسيسية (FMs) أكبر بكثير ضمن مثيل واحد، أو حتى على وحدة معالجة رسوميات واحدة. يترجم هذا إلى تطبيقات ذكاء اصطناعي أكثر استجابة، وتعقيد تشغيلي أقل، وتوفير كبير في التكاليف لنشر وتشغيل نماذج اللغة الكبيرة (LLMs)، والذكاء الاصطناعي متعدد الوسائط، وسير العمل القائم على الوكلاء. قدراتها المحسّنة تجعلها مثالية للتطبيقات التفاعلية التي تتطلب استدلالًا عالي الأداء وفعالًا من حيث التكلفة."
question: "ما هي وحدة معالجة الرسوميات NVIDIA التي تدعم مثيلات G7e الجديدة، وما هي ميزاتها الرئيسية؟" answer: "مثيلات G7e الجديدة على Amazon SageMaker AI مدعومة بوحدات معالجة الرسوميات NVIDIA RTX PRO 6000 Blackwell Server Edition. توفر كل من هذه الوحدات المتطورة 96 جيجابايت من ذاكرة GDDR7، وهو ما يضاعف سعة الذاكرة لكل وحدة معالجة رسوميات مقارنة بمثيلات G6e السابقة. تشمل الميزات الرئيسية أيضًا 1,597 جيجابايت/ثانية من عرض النطاق الترددي لذاكرة وحدة معالجة الرسوميات لكل وحدة، ودعم دقة FP4 من خلال Tensor Cores من الجيل الخامس، وNVIDIA GPUDirect RDMA عبر EFAv4. تساهم هذه الميزات مجتمعة في أداء الاستدلال الفائق لمثيلات G7e، وكثافة الذاكرة، والشبكات ذات زمن الانتقال المنخفض، مما يجعلها قادرة بشكل استثنائي على مهام الذكاء الاصطناعي التوليدي المتطلبة."
question: "كيف تقارن مثيلات G7e بالأجيال السابقة (G6e, G5) من حيث الأداء والذاكرة؟" answer: "تظهر مثيلات G7e قفزة جيلية كبيرة مقارنة بـ G6e و G5. فهي توفر أداء استدلال أسرع بنسبة تصل إلى 2.3 مرة مقارنة بمثيلات G6e. من حيث الذاكرة، توفر كل وحدة معالجة رسوميات G7e 96 جيجابايت من ذاكرة GDDR7، مما يضاعف فعليًا ذاكرة كل وحدة معالجة رسوميات في G6e ويضاعفها أربع مرات في G5. يوفر مثيل G7e.48xlarge من الفئة العليا إجمالي 768 جيجابايت من ذاكرة وحدة معالجة الرسوميات الكلية. علاوة على ذلك، يرتفع عرض النطاق الترددي للشبكة إلى 1,600 جيجابت في الثانية مع EFA على أكبر حجم من G7e، وهو قفزة بمقدار 4 أضعاف مقارنة بـ G6e و16 ضعفًا مقارنة بـ G5. يسمح هذا التحسين الهائل في الذاكرة وعرض النطاق الترددي والشبكات لمثيلات G7e باستضافة نماذج كانت تتطلب سابقًا إعدادات متعددة العقد على المثيلات القديمة، مما يبسط النشر ويقلل زمن الانتقال."
question: "ما هي أنواع أعباء عمل الذكاء الاصطناعي التوليدي الأنسب للنشر على مثيلات G7e؟" answer: "مثيلات G7e مناسبة بشكل استثنائي لمجموعة واسعة من أعباء عمل الذكاء الاصطناعي التوليدي الحديثة نظرًا لكثافة الذاكرة العالية وعرض النطاق الترددي والشبكات المتقدمة. وتشمل هذه: روبوتات الدردشة والذكاء الاصطناعي للمحادثة، مما يضمن وقتًا منخفضًا لأول رمز (TTFT) وإنتاجية عالية لتجارب تفاعلية سريعة الاستجابة؛ سير العمل القائم على الوكلاء واستدعاء الأدوات، مستفيدًا من تحسين عرض النطاق الترددي لوحدة المعالجة المركزية إلى وحدة معالجة الرسوميات بمقدار 4 أضعاف لإدخال السياق السريع في خطوط أنابيب RAG؛ توليد النصوص والتلخيص والاستدلال طويل السياق، استيعاب مخابئ KV الكبيرة لسياقات المستندات الموسعة بذاكرة 96 جيجابايت لكل وحدة معالجة رسوميات؛ توليد الصور ونماذج الرؤية، التغلب على أخطاء نفاد الذاكرة للنماذج متعددة الوسائط الأكبر التي واجهت صعوبات في المثيلات السابقة؛ والذكاء الاصطناعي الفيزيائي والحوسبة العلمية، الاستفادة من حوسبة جيل Blackwell، ودعم FP4، وقدرات الحوسبة المكانية للتوائم الرقمية والمحاكاة ثلاثية الأبعاد."
question: "ما هي الكفاءة من حيث التكلفة لمثيلات G7e مقارنة بـ G6e لاستدلال الذكاء الاصطناعي التوليدي؟" answer: "توفر مثيلات G7e كفاءة محسّنة بشكل كبير من حيث التكلفة لاستدلال الذكاء الاصطناعي التوليدي مقارنة بمثيلات G6e. أظهرت الاختبارات المعيارية لنشر Qwen3-32B أن G7e حققت 0.79 دولارًا لكل مليون رمز إخراج عند التزامن الإنتاجي (C=32). يمثل هذا انخفاضًا ملحوظًا في التكلفة بمقدار 2.6 مرة مقارنة بـ 2.06 دولارًا لكل مليون رمز إخراج لـ G6e لنفس عبء العمل. يرجع هذا التوفير في التكاليف بشكل أساسي إلى انخفاض معدل الساعة لمثيلات G7e بشكل كبير (على سبيل المثال، 4.20 دولارًا/ساعة لـ ml.g7e.2xlarge مقابل 13.12 دولارًا/ساعة لـ ml.g6e.12xlarge) جنبًا إلى جنب مع قدرتها على الحفاظ على إنتاجية ثابتة وعالية تحت الحمل، مما يجعلها خيارًا اقتصاديًا أكثر للنشر على نطاق واسع."
question: "ما هي سعات الذاكرة لنشر نماذج اللغة الكبيرة (LLMs) على مثيلات G7e أحادية ومتعددة وحدات معالجة الرسوميات؟" answer: "توفر مثيلات G7e سعات ذاكرة كبيرة لنشر نماذج اللغة الكبيرة (LLMs). يمكن لوحدة معالجة رسوميات أحادية العقدة، وتحديدًا مثيل G7e.2xlarge، استضافة نماذج تأسيسية تصل إلى 35 مليار معلمة بدقة FP16 بشكل فعال. بالنسبة للنماذج الأكبر، يؤدي التوسع عبر وحدات معالجة رسوميات متعددة داخل مثيل واحد إلى زيادة السعة بشكل كبير: يمكن لعقدة بأربع وحدات معالجة رسوميات (G7e.24xlarge) نشر نماذج تصل إلى 150 مليار معلمة، بينما يمكن لعقدة بثماني وحدات معالجة رسوميات (G7e.48xlarge) التعامل مع نماذج بحجم 300 مليار معلمة. توفر هذه القابلية المذهلة للتوسع للمؤسسات المرونة لنشر مجموعة واسعة من نماذج اللغة الكبيرة دون تعقيدات الإعدادات الموزعة متعددة المثيلات."
question: "ما هي المتطلبات الأساسية لنشر الحلول باستخدام مثيلات G7e على Amazon SageMaker AI؟" answer: "لنشر حلول الذكاء الاصطناعي التوليدي باستخدام مثيلات G7e على Amazon SageMaker AI، يجب تلبية عدة متطلبات أساسية. تحتاج إلى حساب AWS نشط لاستضافة مواردك ودور AWS Identity and Access Management (IAM) تم تكوينه بأذونات مناسبة للوصول إلى خدمات Amazon SageMaker AI. للتطوير والنشر، يوصى بالوصول إلى Amazon SageMaker Studio أو مثيل دفتر ملاحظات SageMaker، على الرغم من أن بيئات التطوير التفاعلية الأخرى مثل PyCharm أو Visual Studio Code قابلة للتطبيق أيضًا. الأهم من ذلك، يجب عليك طلب حصة لمثيل ml.g7e.2xlarge واحد على الأقل (أو نوع مثيل G7e أكبر) لاستخدام نقطة نهاية Amazon SageMaker AI من خلال وحدة تحكم AWS Service Quotas، حيث إن هذه الأنواع جديدة ومتخصصة من المثيلات."


## مثيلات G7e: حقبة جديدة لاستدلال الذكاء الاصطناعي على SageMaker

يتطور مشهد الذكاء الاصطناعي التوليدي بوتيرة غير مسبوقة، مما يدفع طلبًا مستمرًا على بنية تحتية أكثر قوة ومرونة وفعالية من حيث التكلفة. اليوم، يسر Code Velocity أن يقدم تقريرًا عن تقدم كبير من AWS: التوافر العام لمثيلات G7e على Amazon SageMaker AI. مدعومة بوحدات معالجة الرسوميات NVIDIA RTX PRO 6000 Blackwell Server Edition، تم تصميم هذه المثيلات الجديدة لإعادة تعريف المعايير لاستدلال الذكاء الاصطناعي التوليدي، مما يوفر للمطورين والمؤسسات أداءً وسعة ذاكرة لا مثيل لهما.

Amazon SageMaker AI هي خدمة مُدارة بالكامل توفر للمطورين وعلماء البيانات الأدوات اللازمة لبناء وتدريب ونشر نماذج التعلم الآلي على نطاق واسع. يمثل إدخال مثيلات G7e لحظة محورية لأعباء عمل الذكاء الاصطناعي التوليدي على هذه المنصة. تستفيد هذه المثيلات من وحدات معالجة الرسوميات المتطورة NVIDIA RTX PRO 6000 Blackwell، كل منها يتميز بـ 96 جيجابايت من ذاكرة GDDR7. تسمح هذه الزيادة الكبيرة في الذاكرة بنشر نماذج تأسيسية (FMs) أكبر بكثير مباشرة على SageMaker AI، مما يلبي حاجة حرجة لتطبيقات الذكاء الاصطناعي المتقدمة.

يمكن للمؤسسات الآن نشر نماذج مثل GPT-OSS-120B وNemotron-3-Super-120B-A12B (إصدار NVFP4) وQwen3.5-35B-A3B بكفاءة ملحوظة. يمكن لمثيل G7e.2xlarge، الذي يحتوي على وحدة معالجة رسوميات واحدة، استضافة نماذج ذات 35 مليار معلمة، بينما يتوسع G7e.48xlarge، مع ثماني وحدات معالجة رسوميات، ليحتوي على نماذج تصل إلى 300 مليار معلمة. تترجم هذه المرونة إلى فوائد ملموسة: تقليل التعقيد التشغيلي، وتقليل زمن الانتقال، وتوفير كبير في التكاليف لأعباء عمل الاستدلال.

## كشف قفزة الأداء الجيلية لمثيلات G7e

تمثل مثيلات G7e قفزة هائلة مقارنة بأسلافها، G6e و G5، حيث توفر أداء استدلال أسرع بما يصل إلى 2.3 مرة مقارنة بـ G6e. تؤكد المواصفات الفنية هذا التقدم الجيلي. توفر كل وحدة معالجة رسوميات G7e عرض نطاق ترددي مذهل يبلغ 1,597 جيجابايت/ثانية، مما يضاعف فعليًا ذاكرة كل وحدة معالجة رسوميات في G6e ويضاعفها أربع مرات في G5. علاوة على ذلك، تم تعزيز قدرات الشبكات بشكل كبير، حيث تصل إلى 1,600 جيجابت في الثانية مع EFA على أكبر حجم من G7e. تفتح هذه الزيادة بمقدار 4 أضعاف مقارنة بـ G6e و16 ضعفًا مقارنة بـ G5 إمكانية الاستدلال متعدد العقد والتعديل الدقيق بزمن انتقال منخفض، والتي كانت تعتبر غير عملية سابقًا.

فيما يلي مقارنة تسلط الضوء على التقدم عبر الأجيال على مستوى الـ 8 وحدات معالجة رسوميات:

| المواصفات | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
| --- | --- | --- | --- |
| **وحدة معالجة الرسوميات** | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| **ذاكرة وحدة معالجة الرسوميات لكل وحدة** | 24 جيجابايت GDDR6 | 48 جيجابايت GDDR6 | 96 جيجابايت GDDR7 |
| **إجمالي ذاكرة وحدة معالجة الرسوميات** | 192 جيجابايت | 384 جيجابايت | 768 جيجابايت |
| **عرض النطاق الترددي لذاكرة وحدة معالجة الرسوميات** | 600 جيجابايت/ثانية لكل وحدة | 864 جيجابايت/ثانية لكل وحدة | 1,597 جيجابايت/ثانية لكل وحدة |
| **وحدات المعالجة المركزية الافتراضية** | 192 | 192 | 192 |
| **ذاكرة النظام** | 768 جيجابايت | 1,536 جيجابايت | 2,048 جيجابايت |
| **عرض النطاق الترددي للشبكة** | 100 جيجابت في الثانية | 400 جيجابت في الثانية | 1,600 جيجابت في الثانية (EFA) |
| **تخزين NVMe محلي** | 7.6 تيرابايت | 7.6 تيرابايت | 15.2 تيرابايت |
| **الاستدلال مقابل G6e** | أساسي | ~1x | يصل إلى 2.3x |

مع ذاكرة مجمعة لوحدة معالجة الرسوميات تبلغ 768 جيجابايت على مثيل G7e واحد، يمكن الآن نشر النماذج التي كانت تتطلب في السابق تكوينات معقدة متعددة العقد على المثيلات القديمة ببساطة ملحوظة. يقلل هذا بشكل كبير من زمن الانتقال بين العقد والنفقات التشغيلية. بالإضافة إلى دعم دقة FP4 عبر Tensor Cores من الجيل الخامس وNVIDIA GPUDirect RDMA عبر EFAv4، تم تصميم مثيلات G7e بشكل لا لبس فيه لـ LLM المتطلبة، والذكاء الاصطناعي متعدد الوسائط، و[سير عمل الاستدلال القائم على الوكلاء](/ar/operationalizing-agentic-ai-part-1-a-stakeholders-guide) المتطور على AWS.

## حالات استخدام متنوعة للذكاء الاصطناعي التوليدي تزدهر على G7e

إن الجمع القوي بين كثافة الذاكرة وعرض النطاق الترددي وقدرات الشبكات المتقدمة يجعل مثيلات G7e مثالية لمجموعة واسعة من أعباء عمل الذكاء الاصطناعي التوليدي المعاصرة. من تعزيز الذكاء الاصطناعي للمحادثة إلى تشغيل المحاكاة الفيزيائية المعقدة، تقدم G7e مزايا ملموسة:

*   **روبوتات الدردشة والذكاء الاصطناعي للمحادثة**: يضمن انخفاض وقت الرمز الأول (TTFT) والإنتاجية العالية لمثيلات G7e تجارب تفاعلية سريعة الاستجابة وسلسة، حتى عند مواجهة أحمال المستخدمين المتزامنة الكبيرة. وهذا أمر بالغ الأهمية للحفاظ على تفاعل المستخدم ورضاه في تفاعلات الذكاء الاصطناعي في الوقت الفعلي.
*   **سير العمل القائم على الوكلاء واستدعاء الأدوات**: لخطوط أنابيب الجيل المعزز بالاسترجاع (RAG) وأنظمة الوكلاء، يعد إدخال السياق السريع من مخازن الاسترجاع أمرًا بالغ الأهمية. إن التحسن بمقدار 4 أضعاف في عرض النطاق الترددي لوحدة المعالجة المركزية إلى وحدة معالجة الرسوميات داخل مثيلات G7e يجعلها فعالة بشكل استثنائي لهذه العمليات الحرجة، مما يتيح وكلاء ذكاء اصطناعي أكثر ذكاءً وديناميكية.
*   **توليد النصوص والتلخيص والاستدلال طويل السياق**: مع ذاكرة 96 جيجابايت لكل وحدة معالجة رسوميات، تتعامل مثيلات G7e ببراعة مع مخابئ Key-Value (KV) الكبيرة. وهذا يسمح بسياقات مستندات ممتدة، مما يقلل بشكل كبير من الحاجة إلى اقتطاع النص ويسهل استدلالًا أكثر ثراءً ودقة على المدخلات الضخمة.
*   **توليد الصور ونماذج الرؤية**: حيث واجهت مثيلات الأجيال السابقة بشكل متكرر أخطاء نفاد الذاكرة مع نماذج متعددة الوسائط الأكبر، فإن سعة ذاكرة G7e المضاعفة تحل هذه القيود برشاقة، مما يمهد الطريق لتطبيقات ذكاء اصطناعي للصور والرؤية أكثر تطوراً ودقة أعلى.
*   **الذكاء الاصطناعي الفيزيائي والحوسبة العلمية**: إلى جانب الذكاء الاصطناعي التوليدي التقليدي، تمتد حوسبة جيل Blackwell في G7e، ودعم FP4، وقدرات الحوسبة المكانية (بما في ذلك DLSS 4.0 و RT cores من الجيل الرابع) فائدتها لتطبيقات التوائم الرقمية، والمحاكاة ثلاثية الأبعاد، واستدلال نموذج الذكاء الاصطناعي الفيزيائي المتقدم، مما يفتح آفاقًا جديدة في البحث العلمي والتطبيقات الصناعية.

## نشر مبسط ومعيارية الأداء

تم تصميم نشر نماذج الذكاء الاصطناعي التوليدي على مثيلات G7e عبر Amazon SageMaker AI ليكون مباشرًا. يمكن للمستخدمين الوصول إلى دفتر ملاحظات نموذجي [هنا](https://github.com/aws-samples/sagemaker-genai-hosting-examples/tree/main/03-features/instances/g7e) الذي يبسط العملية. تتضمن المتطلبات الأساسية عادةً حساب AWS، ودور IAM للوصول إلى SageMaker، وإما Amazon SageMaker Studio أو مثيل دفتر ملاحظات SageMaker لبيئة التطوير. الأهم من ذلك، يجب على المستخدمين طلب حصة مناسبة لمثيل `ml.g7e.2xlarge` أو مثيلات أكبر لاستخدام نقطة نهاية SageMaker AI عبر وحدة تحكم Service Quotas.

لإظهار مكاسب الأداء الكبيرة، قامت AWS باختبار Qwen3-32B (BF16) على مثيلات G6e و G7e. تضمن عبء العمل حوالي 1,000 رمز إدخال و 560 رمز إخراج لكل طلب، محاكيًا مهام تلخيص المستندات الشائعة. استخدم كلا التكوينين حاوية [vLLM](https://github.com/vllm-project/vllm) الأصلية مع تمكين التخزين المؤقت للبادئة، مما يضمن مقارنة عادلة.

النتائج مقنعة. بينما أظهر خط الأساس G6e (ml.g6e.12xlarge مع 4 وحدات معالجة رسوميات L40S بسعر 13.12 دولارًا/ساعة) إنتاجية قوية لكل طلب، فإن G7e (ml.g7e.2xlarge مع وحدة معالجة رسوميات RTX PRO 6000 Blackwell واحدة بسعر 4.20 دولارًا/ساعة) تحكي قصة تكلفة مختلفة بشكل كبير. عند التزامن الإنتاجي (C=32)، حققت G7e مبلغًا مذهلاً قدره 0.79 دولارًا لكل مليون رمز إخراج. يمثل هذا انخفاضًا في التكلفة بمقدار 2.6 مرة مقارنة بـ 2.06 دولارًا لـ G6e، مدفوعًا بانخفاض معدل الساعة لـ G7e وقدرتها على الحفاظ على إنتاجية ثابتة تحت الحمل، مما يثبت أن الأداء العالي لا يجب أن يأتي بتكلفة باهظة.

## مستقبل استدلال الذكاء الاصطناعي التوليدي الفعال من حيث التكلفة

يمثل إدخال مثيلات G7e على Amazon SageMaker AI أكثر من مجرد ترقية تدريجية؛ إنه خطوة استراتيجية من قبل AWS لإضفاء الطابع الديمقراطي على الوصول إلى الذكاء الاصطناعي التوليدي عالي الأداء. من خلال الجمع بين القوة الخام لوحدات معالجة الرسوميات NVIDIA RTX PRO 6000 Blackwell مع قابلية التوسع وقدرات الإدارة لـ SageMaker، تمكّن AWS المؤسسات من جميع الأحجام من نشر نماذج ذكاء اصطناعي أكبر وأكثر تعقيدًا بكفاءة وتكلفة غير مسبوقة. يضمن هذا التطور إمكانية ترجمة التطورات في الذكاء الاصطناعي التوليدي إلى تطبيقات عملية جاهزة للإنتاج عبر مجموعة واسعة من الصناعات، مما يعزز مكانة SageMaker AI كمنصة رائدة للابتكار في الذكاء الاصطناعي.

المصدر الأصلي

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

الأسئلة الشائعة

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

ابقَ على اطلاع

احصل على آخر أخبار الذكاء الاصطناعي في بريدك.