Инферентност на генеративна вештачка интелигенција: Забрзување на SageMaker со G7e инстанци

title: "Инферентност на генеративна вештачка интелигенција: Забрзување на SageMaker со G7e инстанци" slug: "accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances" date: "2026-04-21" lang: "mk" source: "https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/" category: "Корпоративна вештачка интелигенција" keywords:

Генеративна вештачка интелигенција
Инферентност на вештачка интелигенција
Amazon SageMaker
AWS G7e инстанци
NVIDIA RTX PRO 6000
Распоредување на LLM
Исплатлива вештачка интелигенција
GPU меморија
Blackwell
vLLM
Основни модели
Агентски работни текови meta_description: "Забрзајте ја инферентноста на генеративна вештачка интелигенција на Amazon SageMaker AI со новите G7e инстанци, напојувани од NVIDIA RTX PRO 6000 Blackwell графички процесори, нудејќи 2,3 пати повисоки перформанси и заштеда на трошоци." image: "/images/articles/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances.png" image_alt: "Amazon SageMaker AI G7e инстанци кои ја забрзуваат инферентноста на генеративна вештачка интелигенција со NVIDIA RTX PRO 6000 Blackwell графички процесори." quality_score: 94 content_score: 93 seo_score: 95 companies:
AWS schema_type: "NewsArticle" reading_time: 4 faq:
question: "Што се G7e инстанци и како тие ја подобруваат инферентноста на генеративна вештачка интелигенција?" answer: "G7e инстанците се најновата генерација на компјутерски инстанци забрзани со графички процесори достапни на Amazon SageMaker AI, специјално дизајнирани да ги забрзаат работните оптоварувања за инферентност на генеративна вештачка интелигенција. Тие се напојувани од NVIDIA RTX PRO 6000 Blackwell Server Edition графички процесори, нудејќи значителни подобрувања во капацитетот на меморијата, пропусниот опсег и целокупните перформанси на инферентноста. За генеративна вештачка интелигенција, G7e инстанците значат побрзо Време до прв токен (TTFT), поголема пропусност и можност за хостирање многу поголеми основни модели (FM) во рамките на една инстанца, па дури и на еден графички процесор. Ова се претвора во пореспонзивни AI апликации, намалена оперативна сложеност и значителни заштеди на трошоци за распоредување и извршување на големи јазични модели (LLM), мултимодална вештачка интелигенција и агентски работни текови. Нивните подобрени способности ги прават идеални за интерактивни апликации кои бараат високоперформансна, исплатлива инферентност."
question: "Кој NVIDIA графички процесор ги напојува новите G7e инстанци и кои се неговите клучни карактеристики?" answer: "Новите G7e инстанци на Amazon SageMaker AI се напојувани од NVIDIA RTX PRO 6000 Blackwell Server Edition графички процесори. Секој од овие врвни графички процесори обезбедува импресивни 96 GB GDDR7 меморија, што е двојно поголем капацитет на меморија по графички процесор во споредба со претходните G6e инстанци. Клучните карактеристики вклучуваат и 1.597 GB/s пропусен опсег на меморијата на графичкиот процесор по графички процесор, поддршка за FP4 прецизност преку Tensor Cores од петта генерација и NVIDIA GPUDirect RDMA преку EFAv4. Овие карактеристики колективно придонесуваат за супериорните перформанси на инферентноста на G7e инстанците, густината на меморијата и мрежното поврзување со ниска латентност, што ги прави исклучително способни за бараните задачи на генеративна вештачка интелигенција."
question: "Како се споредуваат G7e инстанците со претходните генерации (G6e, G5) во однос на перформансите и меморијата?" answer: "G7e инстанците демонстрираат значителен генерациски скок во однос на G6e и G5. Тие обезбедуваат до 2,3 пати повисоки перформанси на инферентноста во споредба со G6e инстанците. Во однос на меморијата, секој G7e графички процесор нуди 96 GB GDDR7 меморија, ефективно удвојувајќи ја меморијата по графички процесор на G6e и квадриплирајќи ја таа на G5. Инстанца од највисока класа G7e.48xlarge обезбедува вкупно 768 GB вкупна GPU меморија. Понатаму, пропусниот опсег на мрежата се зголемува до 1.600 Gbps со EFA на најголемата G7e големина, што е 4 пати повеќе од G6e и 16 пати повеќе од G5. Ова огромно подобрување на меморијата, пропусниот опсег и мрежното поврзување им овозможува на G7e инстанците да хостираат модели кои претходно бараа повеќенодни поставки на постари инстанци, поедноставувајќи го распоредувањето и намалувајќи ја латентноста."
question: "Кои типови на работни оптоварувања за генеративна вештачка интелигенција се најсоодветни за распоредување на G7e инстанци?" answer: "G7e инстанците се исклучително добро прилагодени за широк опсег на модерни работни оптоварувања за генеративна вештачка интелигенција поради нивната висока густина на меморија, пропусен опсег и напредно мрежно поврзување. Тие вклучуваат: Чет-ботови и разговорна вештачка интелигенција, обезбедувајќи ниско Време до прв токен (TTFT) и висока пропусност за респонзивни интерактивни искуства; Агентски работни текови и повикување алатки, кои имаат корист од 4 пати подобрениот пропусен опсег на процесорот до графичкиот процесор за брзо инјектирање на контекст во RAG цевководи; Генерирање текст, сумирање и инферентност со долг контекст, приспособувајќи големи KV кешови за продолжени контексти на документи со 96 GB меморија по графички процесор; Генерирање слики и визуелни модели, надминување на грешките за недоволна меморија за поголеми мултимодални модели кои имаа проблеми на претходните инстанци; и Физичка вештачка интелигенција и научно компјутерство, користејќи пресметка од генерацијата Blackwell, поддршка за FP4 и способности за просторно компјутерство за дигитални близнаци и 3D симулација."
question: "Колкава е ефикасноста на трошоците на G7e инстанците во споредба со G6e за инферентност на генеративна вештачка интелигенција?" answer: "G7e инстанците нудат значително подобрена ефикасност на трошоците за инферентност на генеративна вештачка интелигенција во споредба со G6e инстанците. Бенчмарковите за распоредување на Qwen3-32B покажаа дека G7e постигна 0,79 долари по милион излезни токени при производствена истовременост (C=32). Ова претставува извонредно намалување на трошоците од 2,6 пати во споредба со 2,06 долари на G6e по милион излезни токени за слично работно оптоварување. Оваа заштеда на трошоци е првенствено предизвикана од значително пониската часовна стапка на G7e (на пример, 4,20 долари/час за ml.g7e.2xlarge наспроти 13,12 долари/час за ml.g6e.12xlarge) во комбинација со неговата способност да одржува конзистентна и висока пропусност под оптоварување, што го прави поекономичен избор за распоредување од големи размери."
question: "Кои се мемориските капацитети за распоредување на LLM на G7e инстанци со еден и повеќе графички процесори?" answer: "G7e инстанците нудат значителни мемориски капацитети за распоредување на големи јазични модели (LLM). Еден графички процесор со еден јазол, поточно инстанца G7e.2xlarge, може ефективно да хостира основни модели со до 35 милијарди параметри во FP16 прецизност. За поголеми модели, скалирањето преку повеќе графички процесори во рамките на една инстанца драматично го зголемува капацитетот: јазол со 4 графички процесори (G7e.24xlarge) може да распореди модели до 150 милијарди параметри, додека јазол со 8 графички процесори (G7e.48xlarge) може да се справи со модели големи до 300 милијарди параметри. Оваа импресивна скалабилност им овозможува на организациите флексибилност да распоредат широк опсег на LLM без сложеноста на дистрибуираните поставки со повеќе инстанци."
question: "Кои се предусловите за распоредување решенија со користење на G7e инстанци на Amazon SageMaker AI?" answer: "За да распоредите решенија за генеративна вештачка интелигенција користејќи G7e инстанци на Amazon SageMaker AI, мора да се исполнат неколку предуслови. Потребна ви е активна AWS сметка за хостирање на вашите ресурси и AWS Identity and Access Management (IAM) улога конфигурирана со соодветни дозволи за пристап до услугите на Amazon SageMaker AI. За развој и распоредување, се препорачува пристап до Amazon SageMaker Studio или инстанца на SageMaker ноутбук, иако други интерактивни развојни средини како PyCharm или Visual Studio Code се исто така изводливи. Клучно, мора да побарате квота за најмалку една ml.g7e.2xlarge инстанца (или поголем тип на G7e инстанца) за употреба на крајната точка на Amazon SageMaker AI преку конзолата AWS Service Quotas, бидејќи овие се нови и специјализирани типови на инстанци."

G7e инстанци: Нова ера за инферентност на вештачка интелигенција на SageMaker

Пејзажот на генеративната вештачка интелигенција се развива со невидена брзина, што поттикнува постојана побарувачка за помоќна, пофлексибилна и поекономична инфраструктура. Денес, Code Velocity со задоволство известува за значаен напредок од AWS: општа достапност на G7e инстанци на Amazon SageMaker AI. Напојувани од NVIDIA RTX PRO 6000 Blackwell Server Edition графички процесори, овие нови инстанци се поставени да ги редефинираат стандардите за инферентност на генеративна вештачка интелигенција, нудејќи им на развивачите и претпријатијата неспоредливи перформанси и капацитет на меморија.

Amazon SageMaker AI е целосно управувана услуга која им обезбедува на развивачите и научниците за податоци алатки за градење, тренирање и распоредување модели за машинско учење во голем обем. Воведувањето на G7e инстанци означува клучен момент за работните оптоварувања на генеративна вештачка интелигенција на оваа платформа. Овие инстанци ги користат врвните NVIDIA RTX PRO 6000 Blackwell графички процесори, секој со импресивни 96 GB GDDR7 меморија. Ова значително зголемување на меморијата овозможува распоредување на значително поголеми основни модели (FM) директно на SageMaker AI, решавајќи критична потреба за напредни AI апликации.

Организациите сега можат да распоредат модели како GPT-OSS-120B, Nemotron-3-Super-120B-A12B (NVFP4 варијанта) и Qwen3.5-35B-A3B со извонредна ефикасност. Инстанцата G7e.2xlarge, која содржи еден графички процесор, може да хостира модели со 35B параметри, додека G7e.48xlarge, со осум графички процесори, скалира до модели со 300B параметри. Оваа флексибилност се претвора во опипливи придобивки: намалена оперативна сложеност, пониска латентност и значителни заштеди на трошоци за работните оптоварувања на инферентноста.

Откривање на генерацискиот скок во перформансите на G7e

G7e инстанците претставуваат монументален скок во однос на нивните претходници, G6e и G5, обезбедувајќи до 2,3 пати побрзи перформанси на инферентноста во споредба со G6e. Техничките спецификации го подвлекуваат овој генерациски напредок. Секој G7e графички процесор обезбедува неверојатен пропусен опсег од 1.597 GB/s, ефективно удвојувајќи ја меморијата по графички процесор на G6e и квадриплирајќи ја таа на G5. Понатаму, мрежните можности се драматично подобрени, скалирајќи до 1.600 Gbps со EFA на најголемата G7e големина. Ова зголемување од 4 пати во однос на G6e и 16 пати во однос на G5 го отклучува потенцијалот за инферентност со ниска латентност на повеќе јазли и сценарија за фино подесување кои претходно се сметаа за непрактични.

Еве споредба што го истакнува напредокот низ генерациите на ниво на 8-GPU:

Спецификација	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
GPU меморија по GPU	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
Вкупна GPU меморија	192 GB	384 GB	768 GB
Пропусен опсег на GPU меморија	600 GB/s по GPU	864 GB/s по GPU	1.597 GB/s по GPU
vCPU	192	192	192
Системска меморија	768 GiB	1.536 GiB	2.048 GiB
Пропусен опсег на мрежата	100 Gbps	400 Gbps	1.600 Gbps (EFA)
Локално NVMe складирање	7.6 TB	7.6 TB	15.2 TB
Инферентност наспроти G6e	Базна линија	~1x	До 2.3x

Со колосални 768 GB агрегатна GPU меморија на една G7e инстанца, моделите кои некогаш бараа сложени повеќенодни конфигурации на постари инстанци сега можат да бидат распоредени со извонредна едноставност. Ова значително ја намалува латентноста помеѓу јазлите и оперативните трошоци. Во комбинација со поддршка за FP4 прецизност преку Tensor Cores од петта генерација и NVIDIA GPUDirect RDMA преку EFAv4, G7e инстанците се недвосмислено дизајнирани за барачки LLM, мултимодални AI и софистицирани агентски работни текови за инферентност на AWS.

Разновидни случаи на употреба на генеративна вештачка интелигенција на G7e

Робустната комбинација на густина на меморија, пропусен опсег и напредни мрежни способности ги прави G7e инстанците идеални за широк спектар на современи работни оптоварувања за генеративна вештачка интелигенција. Од подобрување на разговорната вештачка интелигенција до напојување на сложени физички симулации, G7e нуди опипливи предности:

Чет-ботови и разговорна вештачка интелигенција: Ниското Време до прв токен (TTFT) и високата пропусност на G7e инстанците обезбедуваат респонзивни и беспрекорни интерактивни искуства, дури и кога се соочуваат со големи истовремени оптоварувања на корисници. Ова е клучно за одржување на ангажманот и задоволството на корисниците во интеракциите со вештачка интелигенција во реално време.
Агентски работни текови и повикување алатки: За RAG цевководи (Retrieval Augmented Generation) и агентски системи, брзото инјектирање на контекст од складиштата за пребарување е најважно. 4 пати подобрениот пропусен опсег на процесорот до графичкиот процесор во рамките на G7e инстанците ги прави исклучително ефективни за овие критични операции, овозможувајќи поинтелигентни и подинамични AI агенти.
Генерирање текст, сумирање и инферентност со долг контекст: Со 96 GB меморија по графички процесор, G7e инстанците вешто се справуваат со големи кешови на клучеви-вредности (KV). Ова овозможува проширени контексти на документи, значително намалувајќи ја потребата за скратување текст и олеснувајќи побогато, попрецизно расудување врз обемни влезови.
Генерирање слики и визуелни модели: Таму каде што инстанците од претходната генерација често се соочуваа со грешки за недоволна меморија со поголеми мултимодални модели, удвоениот мемориски капацитет на G7e грациозно ги решава овие ограничувања, отворајќи го патот за пософистицирани AI апликации за слики и визија со повисока резолуција.
Физичка вештачка интелигенција и научно компјутерство: Надвор од традиционалната генеративна вештачка интелигенција, пресметувачките можности на G7e од генерацијата Blackwell, поддршката за FP4 и можностите за просторно компјутерство (вклучувајќи DLSS 4.0 и RT јадра од 4-та генерација) ја прошируваат нејзината корисност за дигитални близнаци, 3D симулација и напредна инферентност на физички AI модели, отворајќи нови граници во научното истражување и индустриските апликации.

Поедноставено распоредување и бенчмаркинг на перформансите

Распоредувањето на модели за генеративна вештачка интелигенција на G7e инстанци преку Amazon SageMaker AI е дизајнирано да биде едноставно. Корисниците можат да пристапат до примерок на ноутбук овде што го поедноставува процесот. Предусловите обично вклучуваат AWS сметка, IAM улога за пристап до SageMaker и или Amazon SageMaker Studio или инстанца на SageMaker ноутбук за развојната околина. Важно, корисниците треба да побараат соодветна квота за ml.g7e.2xlarge или поголеми инстанци за употреба на крајната точка на SageMaker AI преку конзолата Service Quotas.

За да се демонстрираат значителните придобивки во перформансите, AWS изврши бенчмаркинг на Qwen3-32B (BF16) на G6e и G7e инстанци. Работното оптоварување вклучуваше приближно 1.000 влезни токени и 560 излезни токени по барање, имитирајќи вообичаени задачи за сумирање документи. Двете конфигурации го користеа оригиналниот vLLM контејнер со овозможено кеширање на префикси, обезбедувајќи директна споредба.

Резултатите се убедливи. Додека основната линија на G6e (ml.g6e.12xlarge со 4x L40S графички процесори по цена од 13,12 долари/час) покажа силна пропусност по барање, G7e (ml.g7e.2xlarge со 1x RTX PRO 6000 Blackwell по цена од 4,20 долари/час) раскажува драматично различна приказна за трошоците. При производствена истовременост (C=32), G7e постигна неверојатни 0,79 долари по милион излезни токени. Ова претставува 2,6 пати намалување на трошоците во споредба со 2,06 долари на G6e, водено од пониската часовна стапка на G7e и неговата способност да одржува конзистентна пропусност под оптоварување, докажувајќи дека високите перформанси не мора да доаѓаат по висока цена.

Иднината на исплатливата инферентност на генеративна вештачка интелигенција

Воведувањето на G7e инстанци на Amazon SageMaker AI е повеќе од само инкрементална надградба; тоа е стратешки потег на AWS за демократизирање на пристапот до високоперформансна генеративна вештачка интелигенција. Со комбинирање на суровата моќ на NVIDIA RTX PRO 6000 Blackwell графичките процесори со можностите за скалабилност и управување на SageMaker, AWS ги овластува организациите од сите големини да распоредат поголеми, посложени AI модели со невидена ефикасност и исплатливост. Овој развој гарантира дека напредоците во генеративната вештачка интелигенција можат да се претворат во практични, подготвени за производство апликации низ широк спектар на индустрии, зацврстувајќи ја позицијата на SageMaker AI како водечка платформа за AI иновации.

Оригинален извор

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Често поставувани прашања

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Бидете информирани

Добивајте ги најновите AI вести на е-пошта.

Сподели