نمونههای G7e: دوران جدیدی برای استنتاج هوش مصنوعی در SageMaker
چشمانداز هوش مصنوعی مولد با سرعتی بیسابقه در حال تکامل است و تقاضای مستمری برای زیرساختهای قدرتمندتر، منعطفتر و مقرونبهصرفهتر ایجاد میکند. امروز، Code Velocity با هیجان پیشرفت قابل توجهی از AWS را گزارش میدهد: در دسترس قرار گرفتن عمومی نمونههای G7e در Amazon SageMaker AI. این نمونههای جدید که توسط پردازندههای گرافیکی NVIDIA RTX PRO 6000 Blackwell Server Edition قدرت میگیرند، قرار است معیارهای استنتاج هوش مصنوعی مولد را بازتعریف کنند و عملکرد و ظرفیت حافظه بینظیری را به توسعهدهندگان و شرکتها ارائه دهند.
Amazon SageMaker AI یک سرویس کاملاً مدیریتشده است که ابزارهایی را برای توسعهدهندگان و دانشمندان داده برای ساخت، آموزش و استقرار مدلهای یادگیری ماشین در مقیاس فراهم میکند. معرفی نمونههای G7e نقطه عطفی برای بارهای کاری هوش مصنوعی مولد در این پلتفرم است. این نمونهها از پردازندههای گرافیکی پیشرفته NVIDIA RTX PRO 6000 Blackwell استفاده میکنند که هر کدام دارای 96 گیگابایت حافظه GDDR7 چشمگیر هستند. این افزایش قابل توجه حافظه، امکان استقرار مدلهای پایه (FMs) به طور قابل ملاحظهای بزرگتر را مستقیماً بر روی SageMaker AI فراهم میکند و نیازی حیاتی برای برنامههای هوش مصنوعی پیشرفته را برطرف میسازد.
سازمانها اکنون میتوانند مدلهایی مانند GPT-OSS-120B، Nemotron-3-Super-120B-A12B (نسخه NVFP4) و Qwen3.5-35B-A3B را با کارایی قابل توجهی مستقر کنند. نمونه G7e.2xlarge، که دارای یک GPU است، میتواند مدلهای 35 میلیارد پارامتری را میزبانی کند، در حالی که G7e.48xlarge، با هشت GPU، تا 300 میلیارد پارامتر مدل را مقیاسبندی میکند. این انعطافپذیری به مزایای ملموسی منجر میشود: کاهش پیچیدگی عملیاتی، تأخیر کمتر و صرفهجویی قابل توجه در هزینه برای بارهای کاری استنتاج.
بررسی جهش عملکرد نسلی G7e
نمونههای G7e یک جهش عظیم نسبت به نسلهای قبلی خود، G6e و G5، را نشان میدهند و تا 2.3 برابر عملکرد استنتاج سریعتر در مقایسه با G6e ارائه میدهند. مشخصات فنی این پیشرفت نسلی را تأیید میکند. هر GPU در G7e پهنای باند شگفتانگیز 1597 گیگابایت بر ثانیه را فراهم میکند که حافظه به ازای هر GPU در G6e را دو برابر و در G5 را چهار برابر میکند. علاوه بر این، قابلیتهای شبکهسازی به طور چشمگیری بهبود یافتهاند و با EFA در بزرگترین اندازه G7e تا 1600 گیگابیت بر ثانیه مقیاسپذیر هستند. این افزایش 4 برابری نسبت به G6e و 16 برابری نسبت به G5، پتانسیل استنتاج چند گرهای با تأخیر کم و سناریوهای تنظیم دقیق را که قبلاً غیرعملی تلقی میشدند، آزاد میکند.
در اینجا مقایسهای است که پیشرفت در نسلها را در رده 8-GPU برجسته میکند:
| مشخصات | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
|---|---|---|---|
| GPU | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| حافظه GPU به ازای هر GPU | 24 GB GDDR6 | 48 GB GDDR6 | 96 GB GDDR7 |
| کل حافظه GPU | 192 GB | 384 GB | 768 GB |
| پهنای باند حافظه GPU | 600 GB/s per GPU | 864 GB/s per GPU | 1,597 GB/s per GPU |
| vCPU | 192 | 192 | 192 |
| حافظه سیستم | 768 GiB | 1,536 GiB | 2,048 GiB |
| پهنای باند شبکه | 100 Gbps | 400 Gbps | 1,600 Gbps (EFA) |
| فضای ذخیرهسازی محلی NVMe | 7.6 TB | 7.6 TB | 15.2 TB |
| استنتاج در مقایسه با G6e | Baseline | ~1x | Up to 2.3x |
با 768 گیگابایت حافظه GPU تجمیعشده در یک نمونه G7e، مدلهایی که زمانی نیاز به پیکربندیهای پیچیده چند گرهای در نمونههای قدیمیتر داشتند، اکنون میتوانند با سادگی قابل توجهی مستقر شوند. این امر به طور قابل ملاحظهای تأخیر بین گرهها و سربار عملیاتی را کاهش میدهد. همراه با پشتیبانی از دقت FP4 از طریق هستههای تنسور نسل پنجم و NVIDIA GPUDirect RDMA از طریق EFAv4، نمونههای G7e به طور قاطع برای بارهای کاری استنتاج LLM، هوش مصنوعی چندوجهی و گردش کارهای عاملمحور پیشرفته در AWS طراحی شدهاند.
موارد استفاده متنوع هوش مصنوعی مولد در G7e شکوفا میشوند
ترکیب قدرتمند چگالی حافظه، پهنای باند و قابلیتهای شبکهسازی پیشرفته، نمونههای G7e را برای طیف وسیعی از بارهای کاری مدرن هوش مصنوعی مولد ایدهآل میسازد. از بهبود هوش مصنوعی مکالمهای تا تامین انرژی شبیهسازیهای فیزیکی پیچیده، G7e مزایای ملموسی ارائه میدهد:
- رباتهای چت و هوش مصنوعی مکالمهای: زمان کم تا اولین توکن (TTFT) و توان عملیاتی بالای نمونههای G7e، تجربههای تعاملی پاسخگو و بیدرنگ را تضمین میکند، حتی در مواجهه با بارهای سنگین کاربران همزمان. این برای حفظ تعامل و رضایت کاربر در تعاملات هوش مصنوعی بلادرنگ بسیار حیاتی است.
- گردش کارهای عاملمحور و فراخوانی ابزار: برای خطوط لوله تولید تقویتشده با بازیابی (RAG) و سیستمهای عاملمحور، تزریق سریع محتوا از مخازن بازیابی اهمیت بالایی دارد. بهبود 4 برابری پهنای باند CPU به GPU در نمونههای G7e، آنها را برای این عملیاتهای حیاتی بسیار مؤثر میسازد و عاملهای هوش مصنوعی هوشمندتر و پویاتری را ممکن میسازد.
- تولید متن، خلاصهسازی و استنتاج با زمینه طولانی: با 96 گیگابایت حافظه به ازای هر GPU، نمونههای G7e به خوبی کشهای Key-Value (KV) بزرگ را مدیریت میکنند. این امکان را برای زمینههای اسناد گسترده فراهم میآورد، نیاز به کوتاهسازی متن را به طور قابل توجهی کاهش میدهد و استدلال غنیتر و دقیقتر را بر روی ورودیهای وسیع تسهیل میکند.
- تولید تصویر و مدلهای بینایی: در حالی که نمونههای نسل قبلی غالباً با مدلهای چندوجهی بزرگتر با خطاهای کمبود حافظه مواجه میشدند، ظرفیت حافظه دوبرابری G7e به زیبایی این محدودیتها را برطرف میکند و راه را برای برنامههای هوش مصنوعی تصویر و بینایی پیچیدهتر و با وضوح بالاتر هموار میسازد.
- هوش مصنوعی فیزیکی و محاسبات علمی: فراتر از هوش مصنوعی مولد سنتی، محاسبات نسل Blackwell G7e، پشتیبانی FP4 و قابلیتهای محاسبات فضایی (شامل DLSS 4.0 و هستههای RT نسل چهارم) کاربرد آن را به دوقلوهای دیجیتال، شبیهسازی سهبعدی و استنتاج مدلهای پیشرفته هوش مصنوعی فیزیکی گسترش میدهد و مرزهای جدیدی را در تحقیقات علمی و کاربردهای صنعتی باز میکند.
استقرار سادهشده و معیارگذاری عملکرد
استقرار مدلهای هوش مصنوعی مولد بر روی نمونههای G7e از طریق Amazon SageMaker AI به گونهای طراحی شده است که ساده باشد. کاربران میتوانند به یک نوتبوک نمونه در اینجا دسترسی پیدا کنند که این فرآیند را ساده میکند. پیشنیازها معمولاً شامل یک حساب AWS، یک نقش IAM برای دسترسی SageMaker، و یا Amazon SageMaker Studio یا یک نمونه نوتبوک SageMaker برای محیط توسعه است. نکته مهم این است که کاربران باید برای ml.g7e.2xlarge یا نمونههای بزرگتر برای استفاده از نقطه پایانی SageMaker AI از طریق کنسول Service Quotas، سهمیه مناسبی را درخواست کنند.
برای نشان دادن دستاوردهای عملکردی قابل توجه، AWS مدل Qwen3-32B (BF16) را بر روی نمونههای G6e و G7e معیارگذاری کرد. بار کاری شامل تقریباً 1000 توکن ورودی و 560 توکن خروجی به ازای هر درخواست بود که کارهای رایج خلاصهسازی سند را شبیهسازی میکند. هر دو پیکربندی از کانتینر بومی vLLM با فعال بودن کشینگ پیشوند استفاده کردند، که مقایسهای دقیق و عادلانه را تضمین میکند.
نتایج قانعکننده هستند. در حالی که baseline G6e (ml.g6e.12xlarge با 4x GPU L40S با هزینه 13.12 دلار در ساعت) توان عملیاتی قوی به ازای هر درخواست را نشان داد، G7e (ml.g7e.2xlarge با 1x RTX PRO 6000 Blackwell با هزینه 4.20 دلار در ساعت) داستان هزینه کاملاً متفاوتی را روایت میکند. در نرخ همزمانی تولید (C=32)، G7e به 0.79 دلار به ازای هر میلیون توکن خروجی دست یافت. این نشاندهنده کاهش هزینه 2.6 برابری در مقایسه با 2.06 دلار G6e است که ناشی از نرخ ساعتی پایینتر G7e و توانایی آن در حفظ توان عملیاتی ثابت تحت بار است و ثابت میکند که عملکرد بالا نیازی به هزینه گزاف ندارد.
آینده استنتاج هوش مصنوعی مولد با صرفه اقتصادی
معرفی نمونههای G7e در Amazon SageMaker AI چیزی بیش از یک ارتقاء تدریجی است؛ این یک حرکت استراتژیک توسط AWS برای دموکراتیزه کردن دسترسی به هوش مصنوعی مولد با عملکرد بالا است. با ترکیب قدرت خام پردازندههای گرافیکی NVIDIA RTX PRO 6000 Blackwell با قابلیتهای مقیاسپذیری و مدیریت SageMaker، AWS سازمانها در هر اندازهای را قادر میسازد تا مدلهای هوش مصنوعی بزرگتر و پیچیدهتر را با کارایی و صرفه اقتصادی بیسابقهای مستقر کنند. این توسعه تضمین میکند که پیشرفتها در هوش مصنوعی مولد میتوانند به برنامههای کاربردی عملی و آماده تولید در طیف وسیعی از صنایع تبدیل شوند و موقعیت SageMaker AI را به عنوان یک پلتفرم پیشرو برای نوآوری هوش مصنوعی تثبیت میکند.
سوالات متداول
What are G7e instances and how do they benefit generative AI inference?
Which NVIDIA GPU powers the new G7e instances, and what are its key features?
How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?
What types of generative AI workloads are best suited for deployment on G7e instances?
What is the cost efficiency of G7e instances compared to G6e for generative AI inference?
What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?
What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?
بهروز بمانید
آخرین اخبار هوش مصنوعی را در ایمیل خود دریافت کنید.
