استنتاج هوش مصنوعی مولد: شتاب‌بخشی در SageMaker با نمونه‌های G7e

نمونه‌های G7e: دوران جدیدی برای استنتاج هوش مصنوعی در SageMaker

چشم‌انداز هوش مصنوعی مولد با سرعتی بی‌سابقه در حال تکامل است و تقاضای مستمری برای زیرساخت‌های قدرتمندتر، منعطف‌تر و مقرون‌به‌صرفه‌تر ایجاد می‌کند. امروز، Code Velocity با هیجان پیشرفت قابل توجهی از AWS را گزارش می‌دهد: در دسترس قرار گرفتن عمومی نمونه‌های G7e در Amazon SageMaker AI. این نمونه‌های جدید که توسط پردازنده‌های گرافیکی NVIDIA RTX PRO 6000 Blackwell Server Edition قدرت می‌گیرند، قرار است معیارهای استنتاج هوش مصنوعی مولد را بازتعریف کنند و عملکرد و ظرفیت حافظه بی‌نظیری را به توسعه‌دهندگان و شرکت‌ها ارائه دهند.

Amazon SageMaker AI یک سرویس کاملاً مدیریت‌شده است که ابزارهایی را برای توسعه‌دهندگان و دانشمندان داده برای ساخت، آموزش و استقرار مدل‌های یادگیری ماشین در مقیاس فراهم می‌کند. معرفی نمونه‌های G7e نقطه عطفی برای بارهای کاری هوش مصنوعی مولد در این پلتفرم است. این نمونه‌ها از پردازنده‌های گرافیکی پیشرفته NVIDIA RTX PRO 6000 Blackwell استفاده می‌کنند که هر کدام دارای 96 گیگابایت حافظه GDDR7 چشمگیر هستند. این افزایش قابل توجه حافظه، امکان استقرار مدل‌های پایه (FMs) به طور قابل ملاحظه‌ای بزرگ‌تر را مستقیماً بر روی SageMaker AI فراهم می‌کند و نیازی حیاتی برای برنامه‌های هوش مصنوعی پیشرفته را برطرف می‌سازد.

سازمان‌ها اکنون می‌توانند مدل‌هایی مانند GPT-OSS-120B، Nemotron-3-Super-120B-A12B (نسخه NVFP4) و Qwen3.5-35B-A3B را با کارایی قابل توجهی مستقر کنند. نمونه G7e.2xlarge، که دارای یک GPU است، می‌تواند مدل‌های 35 میلیارد پارامتری را میزبانی کند، در حالی که G7e.48xlarge، با هشت GPU، تا 300 میلیارد پارامتر مدل را مقیاس‌بندی می‌کند. این انعطاف‌پذیری به مزایای ملموسی منجر می‌شود: کاهش پیچیدگی عملیاتی، تأخیر کمتر و صرفه‌جویی قابل توجه در هزینه برای بارهای کاری استنتاج.

بررسی جهش عملکرد نسلی G7e

نمونه‌های G7e یک جهش عظیم نسبت به نسل‌های قبلی خود، G6e و G5، را نشان می‌دهند و تا 2.3 برابر عملکرد استنتاج سریع‌تر در مقایسه با G6e ارائه می‌دهند. مشخصات فنی این پیشرفت نسلی را تأیید می‌کند. هر GPU در G7e پهنای باند شگفت‌انگیز 1597 گیگابایت بر ثانیه را فراهم می‌کند که حافظه به ازای هر GPU در G6e را دو برابر و در G5 را چهار برابر می‌کند. علاوه بر این، قابلیت‌های شبکه‌سازی به طور چشمگیری بهبود یافته‌اند و با EFA در بزرگترین اندازه G7e تا 1600 گیگابیت بر ثانیه مقیاس‌پذیر هستند. این افزایش 4 برابری نسبت به G6e و 16 برابری نسبت به G5، پتانسیل استنتاج چند گره‌ای با تأخیر کم و سناریوهای تنظیم دقیق را که قبلاً غیرعملی تلقی می‌شدند، آزاد می‌کند.

در اینجا مقایسه‌ای است که پیشرفت در نسل‌ها را در رده 8-GPU برجسته می‌کند:

مشخصات	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
حافظه GPU به ازای هر GPU	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
کل حافظه GPU	192 GB	384 GB	768 GB
پهنای باند حافظه GPU	600 GB/s per GPU	864 GB/s per GPU	1,597 GB/s per GPU
vCPU	192	192	192
حافظه سیستم	768 GiB	1,536 GiB	2,048 GiB
پهنای باند شبکه	100 Gbps	400 Gbps	1,600 Gbps (EFA)
فضای ذخیره‌سازی محلی NVMe	7.6 TB	7.6 TB	15.2 TB
استنتاج در مقایسه با G6e	Baseline	~1x	Up to 2.3x

با 768 گیگابایت حافظه GPU تجمیع‌شده در یک نمونه G7e، مدل‌هایی که زمانی نیاز به پیکربندی‌های پیچیده چند گره‌ای در نمونه‌های قدیمی‌تر داشتند، اکنون می‌توانند با سادگی قابل توجهی مستقر شوند. این امر به طور قابل ملاحظه‌ای تأخیر بین گره‌ها و سربار عملیاتی را کاهش می‌دهد. همراه با پشتیبانی از دقت FP4 از طریق هسته‌های تنسور نسل پنجم و NVIDIA GPUDirect RDMA از طریق EFAv4، نمونه‌های G7e به طور قاطع برای بارهای کاری استنتاج LLM، هوش مصنوعی چندوجهی و گردش کارهای عامل‌محور پیشرفته در AWS طراحی شده‌اند.

موارد استفاده متنوع هوش مصنوعی مولد در G7e شکوفا می‌شوند

ترکیب قدرتمند چگالی حافظه، پهنای باند و قابلیت‌های شبکه‌سازی پیشرفته، نمونه‌های G7e را برای طیف وسیعی از بارهای کاری مدرن هوش مصنوعی مولد ایده‌آل می‌سازد. از بهبود هوش مصنوعی مکالمه‌ای تا تامین انرژی شبیه‌سازی‌های فیزیکی پیچیده، G7e مزایای ملموسی ارائه می‌دهد:

ربات‌های چت و هوش مصنوعی مکالمه‌ای: زمان کم تا اولین توکن (TTFT) و توان عملیاتی بالای نمونه‌های G7e، تجربه‌های تعاملی پاسخگو و بی‌درنگ را تضمین می‌کند، حتی در مواجهه با بارهای سنگین کاربران همزمان. این برای حفظ تعامل و رضایت کاربر در تعاملات هوش مصنوعی بلادرنگ بسیار حیاتی است.
گردش کارهای عامل‌محور و فراخوانی ابزار: برای خطوط لوله تولید تقویت‌شده با بازیابی (RAG) و سیستم‌های عامل‌محور، تزریق سریع محتوا از مخازن بازیابی اهمیت بالایی دارد. بهبود 4 برابری پهنای باند CPU به GPU در نمونه‌های G7e، آن‌ها را برای این عملیات‌های حیاتی بسیار مؤثر می‌سازد و عامل‌های هوش مصنوعی هوشمندتر و پویاتری را ممکن می‌سازد.
تولید متن، خلاصه‌سازی و استنتاج با زمینه طولانی: با 96 گیگابایت حافظه به ازای هر GPU، نمونه‌های G7e به خوبی کش‌های Key-Value (KV) بزرگ را مدیریت می‌کنند. این امکان را برای زمینه‌های اسناد گسترده فراهم می‌آورد، نیاز به کوتاه‌سازی متن را به طور قابل توجهی کاهش می‌دهد و استدلال غنی‌تر و دقیق‌تر را بر روی ورودی‌های وسیع تسهیل می‌کند.
تولید تصویر و مدل‌های بینایی: در حالی که نمونه‌های نسل قبلی غالباً با مدل‌های چندوجهی بزرگ‌تر با خطاهای کمبود حافظه مواجه می‌شدند، ظرفیت حافظه دوبرابری G7e به زیبایی این محدودیت‌ها را برطرف می‌کند و راه را برای برنامه‌های هوش مصنوعی تصویر و بینایی پیچیده‌تر و با وضوح بالاتر هموار می‌سازد.
هوش مصنوعی فیزیکی و محاسبات علمی: فراتر از هوش مصنوعی مولد سنتی، محاسبات نسل Blackwell G7e، پشتیبانی FP4 و قابلیت‌های محاسبات فضایی (شامل DLSS 4.0 و هسته‌های RT نسل چهارم) کاربرد آن را به دوقلوهای دیجیتال، شبیه‌سازی سه‌بعدی و استنتاج مدل‌های پیشرفته هوش مصنوعی فیزیکی گسترش می‌دهد و مرزهای جدیدی را در تحقیقات علمی و کاربردهای صنعتی باز می‌کند.

استقرار ساده‌شده و معیارگذاری عملکرد

استقرار مدل‌های هوش مصنوعی مولد بر روی نمونه‌های G7e از طریق Amazon SageMaker AI به گونه‌ای طراحی شده است که ساده باشد. کاربران می‌توانند به یک نوت‌بوک نمونه در اینجا دسترسی پیدا کنند که این فرآیند را ساده می‌کند. پیش‌نیازها معمولاً شامل یک حساب AWS، یک نقش IAM برای دسترسی SageMaker، و یا Amazon SageMaker Studio یا یک نمونه نوت‌بوک SageMaker برای محیط توسعه است. نکته مهم این است که کاربران باید برای ml.g7e.2xlarge یا نمونه‌های بزرگتر برای استفاده از نقطه پایانی SageMaker AI از طریق کنسول Service Quotas، سهمیه مناسبی را درخواست کنند.

برای نشان دادن دستاوردهای عملکردی قابل توجه، AWS مدل Qwen3-32B (BF16) را بر روی نمونه‌های G6e و G7e معیارگذاری کرد. بار کاری شامل تقریباً 1000 توکن ورودی و 560 توکن خروجی به ازای هر درخواست بود که کارهای رایج خلاصه‌سازی سند را شبیه‌سازی می‌کند. هر دو پیکربندی از کانتینر بومی vLLM با فعال بودن کشینگ پیشوند استفاده کردند، که مقایسه‌ای دقیق و عادلانه را تضمین می‌کند.

نتایج قانع‌کننده هستند. در حالی که baseline G6e (ml.g6e.12xlarge با 4x GPU L40S با هزینه 13.12 دلار در ساعت) توان عملیاتی قوی به ازای هر درخواست را نشان داد، G7e (ml.g7e.2xlarge با 1x RTX PRO 6000 Blackwell با هزینه 4.20 دلار در ساعت) داستان هزینه کاملاً متفاوتی را روایت می‌کند. در نرخ همزمانی تولید (C=32)، G7e به 0.79 دلار به ازای هر میلیون توکن خروجی دست یافت. این نشان‌دهنده کاهش هزینه 2.6 برابری در مقایسه با 2.06 دلار G6e است که ناشی از نرخ ساعتی پایین‌تر G7e و توانایی آن در حفظ توان عملیاتی ثابت تحت بار است و ثابت می‌کند که عملکرد بالا نیازی به هزینه گزاف ندارد.

آینده استنتاج هوش مصنوعی مولد با صرفه اقتصادی

معرفی نمونه‌های G7e در Amazon SageMaker AI چیزی بیش از یک ارتقاء تدریجی است؛ این یک حرکت استراتژیک توسط AWS برای دموکراتیزه کردن دسترسی به هوش مصنوعی مولد با عملکرد بالا است. با ترکیب قدرت خام پردازنده‌های گرافیکی NVIDIA RTX PRO 6000 Blackwell با قابلیت‌های مقیاس‌پذیری و مدیریت SageMaker، AWS سازمان‌ها در هر اندازه‌ای را قادر می‌سازد تا مدل‌های هوش مصنوعی بزرگ‌تر و پیچیده‌تر را با کارایی و صرفه اقتصادی بی‌سابقه‌ای مستقر کنند. این توسعه تضمین می‌کند که پیشرفت‌ها در هوش مصنوعی مولد می‌توانند به برنامه‌های کاربردی عملی و آماده تولید در طیف وسیعی از صنایع تبدیل شوند و موقعیت SageMaker AI را به عنوان یک پلتفرم پیشرو برای نوآوری هوش مصنوعی تثبیت می‌کند.

منبع اصلی

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

سوالات متداول

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

به‌روز بمانید

آخرین اخبار هوش مصنوعی را در ایمیل خود دریافت کنید.

اشتراک‌گذاری