جنریٹو AI انفرنس: SageMaker پر G7e انسٹینسز کے ساتھ تیزی

G7e انسٹینسز: SageMaker پر AI انفرنس کے لیے ایک نیا دور

جنریٹو AI کا منظر نامہ ایک بے مثال رفتار سے ترقی کر رہا ہے، جس کی وجہ سے زیادہ طاقتور، لچکدار، اور لاگت مؤثر انفراسٹرکچر کی مسلسل مانگ ہے۔ آج، Code Velocity AWS کی جانب سے ایک اہم پیشرفت کی اطلاع دیتے ہوئے پرجوش ہے: Amazon SageMaker AI پر G7e انسٹینسز کی عام دستیابی۔ NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs سے چلنے والے، یہ نئے انسٹینسز جنریٹو AI انفرنس کے لیے معیارات کو نئے سرے سے متعین کرنے کے لیے تیار ہیں، جو ڈویلپرز اور اداروں کو بے مثال کارکردگی اور میموری کی صلاحیت پیش کرتے ہیں۔

Amazon SageMaker AI ایک مکمل طور پر منظم سروس ہے جو ڈویلپرز اور ڈیٹا سائنسدانوں کو بڑے پیمانے پر مشین لرننگ ماڈلز بنانے، تربیت دینے اور تعینات کرنے کے اوزار فراہم کرتی ہے۔ G7e انسٹینسز کا تعارف اس پلیٹ فارم پر جنریٹو AI ورک لوڈز کے لیے ایک اہم لمحے کی نشاندہی کرتا ہے۔ یہ انسٹینسز جدید ترین NVIDIA RTX PRO 6000 Blackwell GPUs کا فائدہ اٹھاتے ہیں، جن میں سے ہر ایک متاثر کن 96 GB GDDR7 میموری پر فخر کرتا ہے۔ میموری میں یہ نمایاں اضافہ کافی بڑے فاؤنڈیشن ماڈلز (FMs) کو براہ راست SageMaker AI پر تعینات کرنے کی اجازت دیتا ہے، جو جدید AI ایپلی کیشنز کے لیے ایک اہم ضرورت کو پورا کرتا ہے۔

تنظیمیں اب GPT-OSS-120B، Nemotron-3-Super-120B-A12B (NVFP4 ویرینٹ)، اور Qwen3.5-35B-A3B جیسے ماڈلز کو غیر معمولی کارکردگی کے ساتھ تعینات کر سکتی ہیں۔ G7e.2xlarge انسٹینس، جس میں ایک واحد GPU شامل ہے، 35B پیرامیٹر ماڈلز کی میزبانی کر سکتا ہے، جبکہ G7e.48xlarge، آٹھ GPUs کے ساتھ، 300B پیرامیٹر ماڈلز تک اسکیل کرتا ہے۔ یہ لچک ٹھوس فوائد میں ترجمہ کرتی ہے: آپریشنل پیچیدگی میں کمی، کم تاخیر، اور انفرنس ورک لوڈز کے لیے کافی لاگت کی بچت۔

G7e کی نسلی کارکردگی کی چھلانگ کو کھولنا

G7e انسٹینسز اپنے پیشروؤں، G6e اور G5 کے مقابلے میں ایک یادگار چھلانگ کی نمائندگی کرتے ہیں، جو G6e کے مقابلے میں 2.3 گنا تک تیز انفرنس کارکردگی فراہم کرتے ہیں۔ تکنیکی خصوصیات اس نسلی پیشرفت کو نمایاں کرتی ہیں۔ ہر G7e GPU حیرت انگیز 1,597 GB/s بینڈ وڈتھ فراہم کرتا ہے، جو G6e کی فی-GPU میموری کو مؤثر طریقے سے دوگنا اور G5 کی چار گنا کرتا ہے۔ مزید برآں، نیٹ ورکنگ کی صلاحیتیں ڈرامائی طور پر بڑھا دی گئی ہیں، جو سب سے بڑے G7e سائز پر EFA کے ساتھ 1,600 Gbps تک اسکیل کرتی ہیں۔ G6e کے مقابلے میں یہ 4 گنا اور G5 کے مقابلے میں 16 گنا اضافہ کم تاخیر والے ملٹی-نوڈ انفرنس اور فائن-ٹیوننگ منظرناموں کی صلاحیت کو کھولتا ہے جسے پہلے ناقابل عمل سمجھا جاتا تھا۔

یہاں 8-GPU ٹیر پر نسلوں میں پیشرفت کا موازنہ ہے:

تفصیل	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
فی GPU میموری	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
کل GPU میموری	192 GB	384 GB	768 GB
GPU میموری بینڈ وڈتھ	600 GB/s فی GPU	864 GB/s فی GPU	1,597 GB/s فی GPU
vCPUs	192	192	192
سسٹم میموری	768 GiB	1,536 GiB	2,048 GiB
نیٹ ورک بینڈ وڈتھ	100 Gbps	400 Gbps	1,600 Gbps (EFA)
لوکل NVMe سٹوریج	7.6 TB	7.6 TB	15.2 TB
انفرنس بمقابلہ G6e	بیس لائن	~1x	2.3x تک

ایک ہی G7e انسٹینس پر 768 GB کے مجموعی GPU میموری کے ساتھ، ایسے ماڈلز جن کے لیے کبھی پرانے انسٹینسز پر پیچیدہ ملٹی-نوڈ کنفیگریشنز کی ضرورت ہوتی تھی، اب غیر معمولی سادگی کے ساتھ تعینات کیے جا سکتے ہیں۔ یہ انٹر-نوڈ تاخیر اور آپریشنل اوور ہیڈ کو نمایاں طور پر کم کرتا ہے۔ پانچویں جنریشن ٹینسر کورز کے ذریعے FP4 درستگی اور EFAv4 پر NVIDIA GPUDirect RDMA کے لیے سپورٹ کے ساتھ، G7e انسٹینسز AWS پر مطالباتی LLM، ملٹی ماڈل AI، اور جدید ایجنٹک انفرنس ورک فلوز کے لیے بلا شبہ ڈیزائن کیے گئے ہیں۔

G7e پر متنوع جنریٹو AI استعمال کے معاملات ترقی کرتے ہیں

میموری کثافت، بینڈ وڈتھ، اور جدید نیٹ ورکنگ کی مضبوط صلاحیتوں کا امتزاج G7e انسٹینسز کو عصری جنریٹو AI ورک لوڈز کی ایک وسیع رینج کے لیے مثالی بناتا ہے۔ کنورسیشنل AI کو بہتر بنانے سے لے کر پیچیدہ فزیکل سمیلیشنز کو طاقت دینے تک، G7e ٹھوس فوائد پیش کرتا ہے:

چیٹ بوٹس اور کنورسیشنل AI: G7e انسٹینسز کا کم ٹائم ٹو فرسٹ ٹوکن (TTFT) اور اعلی تھرو پٹ رسپانسیو اور ہموار انٹرایکٹو تجربات کو یقینی بناتا ہے، یہاں تک کہ جب بھاری متوازی صارف لوڈ کا سامنا ہو۔ یہ حقیقی وقت میں AI تعاملات میں صارف کی مصروفیت اور اطمینان کو برقرار رکھنے کے لیے انتہائی اہم ہے۔
ایجنٹک اور ٹول-کالنگ ورک فلوز: ریٹریول آگمینٹڈ جنریشن (RAG) پائپ لائنز اور ایجنٹک سسٹمز کے لیے، ریٹریول اسٹورز سے تیز سیاق و سباق کا انجیکشن انتہائی اہمیت کا حامل ہے۔ G7e انسٹینسز کے اندر CPU-ٹو-GPU بینڈ وڈتھ میں 4 گنا بہتری انہیں ان اہم کارروائیوں کے لیے غیر معمولی طور پر مؤثر بناتی ہے، جس سے زیادہ ذہین اور متحرک AI ایجنٹس کو فعال کیا جاتا ہے۔
ٹیکسٹ جنریشن، سمریائزیشن، اور لانگ-کانٹیکسٹ انفرنس: 96 GB فی-GPU میموری کے ساتھ، G7e انسٹینسز بڑے کی-ویلیو (KV) کیشز کو مہارت سے سنبھالتے ہیں۔ یہ توسیعی دستاویز سیاق و سباق کی اجازت دیتا ہے، ٹیکسٹ ٹرنکیشن کی ضرورت کو نمایاں طور پر کم کرتا ہے اور وسیع ان پٹس پر زیادہ بھرپور، زیادہ باریک استدلال کو سہولت فراہم کرتا ہے۔
امیج جنریشن اور ویژن ماڈلز: جہاں پچھلی نسل کے انسٹینسز کو بڑے ملٹی ماڈل ماڈلز کے ساتھ کثرت سے آؤٹ-آف-میموری کی غلطیوں کا سامنا کرنا پڑتا تھا، G7e کی دوگنی میموری کی صلاحیت ان حدود کو خوبصورتی سے حل کرتی ہے، جو زیادہ جدید اور اعلی ریزولوشن والے امیج اور ویژن AI ایپلی کیشنز کے لیے راہ ہموار کرتی ہے۔
فزیکل AI اور سائنسی کمپیوٹنگ: روایتی جنریٹو AI سے ہٹ کر، G7e کا Blackwell-جنریشن کمپیوٹ، FP4 سپورٹ، اور مقامی کمپیوٹنگ کی صلاحیتیں (بشمول DLSS 4.0 اور 4th-جنریشن RT کورز) اس کی افادیت کو ڈیجیٹل ٹونز، 3D سمیلیشن، اور جدید فزیکل AI ماڈل انفرنس تک بڑھاتی ہیں، جو سائنسی تحقیق اور صنعتی ایپلی کیشنز میں نئے افق کھولتی ہیں۔

ہموار تعیناتی اور کارکردگی کا بینچ مارکنگ

Amazon SageMaker AI کے ذریعے G7e انسٹینسز پر جنریٹو AI ماڈلز کو تعینات کرنا سیدھا سادہ ڈیزائن کیا گیا ہے۔ صارفین ایک نمونہ نوٹ بک یہاں تک رسائی حاصل کر سکتے ہیں جو عمل کو ہموار کرتا ہے۔ پیشگی شرائط میں عام طور پر ایک AWS اکاؤنٹ، SageMaker رسائی کے لیے ایک IAM رول، اور ترقیاتی ماحول کے لیے Amazon SageMaker Studio یا SageMaker نوٹ بک انسٹینس شامل ہیں۔ اہم بات یہ ہے کہ، صارفین کو سروس کوٹہ کنسول کے ذریعے SageMaker AI اینڈ پوائنٹ کے استعمال کے لیے ml.g7e.2xlarge یا بڑے انسٹینسز کے لیے مناسب کوٹہ کی درخواست کرنی چاہیے۔

کارکردگی میں نمایاں اضافے کو ظاہر کرنے کے لیے، AWS نے G6e اور G7e دونوں انسٹینسز پر Qwen3-32B (BF16) کا بینچ مارک کیا۔ ورک لوڈ میں تقریباً 1,000 ان پٹ ٹوکنز اور فی درخواست 560 آؤٹ پٹ ٹوکنز شامل تھے، جو عام دستاویز سمریائزیشن کے کاموں کی نقل کرتے ہیں۔ دونوں کنفیگریشنز نے پریفکس کیشنگ فعال کے ساتھ مقامی vLLM کنٹینر کا استعمال کیا، جس سے ایک مکمل موازنہ یقینی بنایا گیا۔

نتائج متاثر کن ہیں۔ جب کہ G6e بیس لائن (ml.g6e.12xlarge 4x L40S GPUs کے ساتھ $13.12/گھنٹہ پر) نے فی-درخواست مضبوط تھرو پٹ دکھایا، G7e (ml.g7e.2xlarge 1x RTX PRO 6000 Blackwell کے ساتھ $4.20/گھنٹہ پر) ایک ڈرامائی طور پر مختلف لاگت کی کہانی بیان کرتا ہے۔ پروڈکشن ہم آہنگی (C=32) پر، G7e نے حیرت انگیز $0.79 فی ملین آؤٹ پٹ ٹوکنز حاصل کیے۔ یہ G6e کے $2.06 کے مقابلے میں 2.6 گنا لاگت میں کمی کی نمائندگی کرتا ہے، جو G7e کی کم فی گھنٹہ کی شرح اور لوڈ کے تحت مستقل تھرو پٹ برقرار رکھنے کی صلاحیت سے چلتی ہے، یہ ثابت کرتا ہے کہ اعلی کارکردگی کو مہنگی لاگت پر نہیں آنا پڑتا۔

لاگت مؤثر جنریٹو AI انفرنس کا مستقبل

Amazon SageMaker AI پر G7e انسٹینسز کا تعارف صرف ایک اضافی اپ گریڈ سے کہیں زیادہ ہے؛ یہ AWS کی طرف سے اعلی کارکردگی والے جنریٹو AI تک رسائی کو جمہوری بنانے کی ایک حکمت عملی ہے۔ NVIDIA RTX PRO 6000 Blackwell GPUs کی خالص طاقت کو SageMaker کی اسکیل ایبلٹی اور انتظامی صلاحیتوں کے ساتھ ملا کر، AWS ہر سائز کی تنظیموں کو بے مثال کارکردگی اور لاگت کی تاثیر کے ساتھ بڑے، زیادہ پیچیدہ AI ماڈلز کو تعینات کرنے کے لیے بااختیار بنا رہا ہے۔ یہ پیشرفت یقینی بناتی ہے کہ جنریٹو AI میں ہونے والی پیشرفت کو صنعتوں کی ایک وسیع صف میں عملی، پیداوار کے لیے تیار ایپلی کیشنز میں ترجمہ کیا جا سکتا ہے، جس سے AI جدت کے لیے SageMaker AI کی ایک اہم پلیٹ فارم کے طور پر پوزیشن مستحکم ہوتی ہے۔

اصل ماخذ

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

اکثر پوچھے جانے والے سوالات

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

اپ ڈیٹ رہیں

تازہ ترین AI خبریں اپنے ان باکس میں حاصل کریں۔

شیئر کریں