title: "Инферентност на генеративна вештачка интелигенција: Забрзување на SageMaker со G7e инстанци" slug: "accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances" date: "2026-04-21" lang: "mk" source: "https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/" category: "Корпоративна вештачка интелигенција" keywords:
- Генеративна вештачка интелигенција
- Инферентност на вештачка интелигенција
- Amazon SageMaker
- AWS G7e инстанци
- NVIDIA RTX PRO 6000
- Распоредување на LLM
- Исплатлива вештачка интелигенција
- GPU меморија
- Blackwell
- vLLM
- Основни модели
- Агентски работни текови meta_description: "Забрзајте ја инферентноста на генеративна вештачка интелигенција на Amazon SageMaker AI со новите G7e инстанци, напојувани од NVIDIA RTX PRO 6000 Blackwell графички процесори, нудејќи 2,3 пати повисоки перформанси и заштеда на трошоци." image: "/images/articles/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances.png" image_alt: "Amazon SageMaker AI G7e инстанци кои ја забрзуваат инферентноста на генеративна вештачка интелигенција со NVIDIA RTX PRO 6000 Blackwell графички процесори." quality_score: 94 content_score: 93 seo_score: 95 companies:
- AWS schema_type: "NewsArticle" reading_time: 4 faq:
- question: "Што се G7e инстанци и како тие ја подобруваат инферентноста на генеративна вештачка интелигенција?" answer: "G7e инстанците се најновата генерација на компјутерски инстанци забрзани со графички процесори достапни на Amazon SageMaker AI, специјално дизајнирани да ги забрзаат работните оптоварувања за инферентност на генеративна вештачка интелигенција. Тие се напојувани од NVIDIA RTX PRO 6000 Blackwell Server Edition графички процесори, нудејќи значителни подобрувања во капацитетот на меморијата, пропусниот опсег и целокупните перформанси на инферентноста. За генеративна вештачка интелигенција, G7e инстанците значат побрзо Време до прв токен (TTFT), поголема пропусност и можност за хостирање многу поголеми основни модели (FM) во рамките на една инстанца, па дури и на еден графички процесор. Ова се претвора во пореспонзивни AI апликации, намалена оперативна сложеност и значителни заштеди на трошоци за распоредување и извршување на големи јазични модели (LLM), мултимодална вештачка интелигенција и агентски работни текови. Нивните подобрени способности ги прават идеални за интерактивни апликации кои бараат високоперформансна, исплатлива инферентност."
- question: "Кој NVIDIA графички процесор ги напојува новите G7e инстанци и кои се неговите клучни карактеристики?" answer: "Новите G7e инстанци на Amazon SageMaker AI се напојувани од NVIDIA RTX PRO 6000 Blackwell Server Edition графички процесори. Секој од овие врвни графички процесори обезбедува импресивни 96 GB GDDR7 меморија, што е двојно поголем капацитет на меморија по графички процесор во споредба со претходните G6e инстанци. Клучните карактеристики вклучуваат и 1.597 GB/s пропусен опсег на меморијата на графичкиот процесор по графички процесор, поддршка за FP4 прецизност преку Tensor Cores од петта генерација и NVIDIA GPUDirect RDMA преку EFAv4. Овие карактеристики колективно придонесуваат за супериорните перформанси на инферентноста на G7e инстанците, густината на меморијата и мрежното поврзување со ниска латентност, што ги прави исклучително способни за бараните задачи на генеративна вештачка интелигенција."
- question: "Како се споредуваат G7e инстанците со претходните генерации (G6e, G5) во однос на перформансите и меморијата?" answer: "G7e инстанците демонстрираат значителен генерациски скок во однос на G6e и G5. Тие обезбедуваат до 2,3 пати повисоки перформанси на инферентноста во споредба со G6e инстанците. Во однос на меморијата, секој G7e графички процесор нуди 96 GB GDDR7 меморија, ефективно удвојувајќи ја меморијата по графички процесор на G6e и квадриплирајќи ја таа на G5. Инстанца од највисока класа G7e.48xlarge обезбедува вкупно 768 GB вкупна GPU меморија. Понатаму, пропусниот опсег на мрежата се зголемува до 1.600 Gbps со EFA на најголемата G7e големина, што е 4 пати повеќе од G6e и 16 пати повеќе од G5. Ова огромно подобрување на меморијата, пропусниот опсег и мрежното поврзување им овозможува на G7e инстанците да хостираат модели кои претходно бараа повеќенодни поставки на постари инстанци, поедноставувајќи го распоредувањето и намалувајќи ја латентноста."
- question: "Кои типови на работни оптоварувања за генеративна вештачка интелигенција се најсоодветни за распоредување на G7e инстанци?" answer: "G7e инстанците се исклучително добро прилагодени за широк опсег на модерни работни оптоварувања за генеративна вештачка интелигенција поради нивната висока густина на меморија, пропусен опсег и напредно мрежно поврзување. Тие вклучуваат: Чет-ботови и разговорна вештачка интелигенција, обезбедувајќи ниско Време до прв токен (TTFT) и висока пропусност за респонзивни интерактивни искуства; Агентски работни текови и повикување алатки, кои имаат корист од 4 пати подобрениот пропусен опсег на процесорот до графичкиот процесор за брзо инјектирање на контекст во RAG цевководи; Генерирање текст, сумирање и инферентност со долг контекст, приспособувајќи големи KV кешови за продолжени контексти на документи со 96 GB меморија по графички процесор; Генерирање слики и визуелни модели, надминување на грешките за недоволна меморија за поголеми мултимодални модели кои имаа проблеми на претходните инстанци; и Физичка вештачка интелигенција и научно компјутерство, користејќи пресметка од генерацијата Blackwell, поддршка за FP4 и способности за просторно компјутерство за дигитални близнаци и 3D симулација."
- question: "Колкава е ефикасноста на трошоците на G7e инстанците во споредба со G6e за инферентност на генеративна вештачка интелигенција?" answer: "G7e инстанците нудат значително подобрена ефикасност на трошоците за инферентност на генеративна вештачка интелигенција во споредба со G6e инстанците. Бенчмарковите за распоредување на Qwen3-32B покажаа дека G7e постигна 0,79 долари по милион излезни токени при производствена истовременост (C=32). Ова претставува извонредно намалување на трошоците од 2,6 пати во споредба со 2,06 долари на G6e по милион излезни токени за слично работно оптоварување. Оваа заштеда на трошоци е првенствено предизвикана од значително пониската часовна стапка на G7e (на пример, 4,20 долари/час за ml.g7e.2xlarge наспроти 13,12 долари/час за ml.g6e.12xlarge) во комбинација со неговата способност да одржува конзистентна и висока пропусност под оптоварување, што го прави поекономичен избор за распоредување од големи размери."
- question: "Кои се мемориските капацитети за распоредување на LLM на G7e инстанци со еден и повеќе графички процесори?" answer: "G7e инстанците нудат значителни мемориски капацитети за распоредување на големи јазични модели (LLM). Еден графички процесор со еден јазол, поточно инстанца G7e.2xlarge, може ефективно да хостира основни модели со до 35 милијарди параметри во FP16 прецизност. За поголеми модели, скалирањето преку повеќе графички процесори во рамките на една инстанца драматично го зголемува капацитетот: јазол со 4 графички процесори (G7e.24xlarge) може да распореди модели до 150 милијарди параметри, додека јазол со 8 графички процесори (G7e.48xlarge) може да се справи со модели големи до 300 милијарди параметри. Оваа импресивна скалабилност им овозможува на организациите флексибилност да распоредат широк опсег на LLM без сложеноста на дистрибуираните поставки со повеќе инстанци."
- question: "Кои се предусловите за распоредување решенија со користење на G7e инстанци на Amazon SageMaker AI?"
answer: "За да распоредите решенија за генеративна вештачка интелигенција користејќи G7e инстанци на Amazon SageMaker AI, мора да се исполнат неколку предуслови. Потребна ви е активна AWS сметка за хостирање на вашите ресурси и AWS Identity and Access Management (IAM) улога конфигурирана со соодветни дозволи за пристап до услугите на Amazon SageMaker AI. За развој и распоредување, се препорачува пристап до Amazon SageMaker Studio или инстанца на SageMaker ноутбук, иако други интерактивни развојни средини како PyCharm или Visual Studio Code се исто така изводливи. Клучно, мора да побарате квота за најмалку една
ml.g7e.2xlargeинстанца (или поголем тип на G7e инстанца) за употреба на крајната точка на Amazon SageMaker AI преку конзолата AWS Service Quotas, бидејќи овие се нови и специјализирани типови на инстанци."
G7e инстанци: Нова ера за инферентност на вештачка интелигенција на SageMaker
Пејзажот на генеративната вештачка интелигенција се развива со невидена брзина, што поттикнува постојана побарувачка за помоќна, пофлексибилна и поекономична инфраструктура. Денес, Code Velocity со задоволство известува за значаен напредок од AWS: општа достапност на G7e инстанци на Amazon SageMaker AI. Напојувани од NVIDIA RTX PRO 6000 Blackwell Server Edition графички процесори, овие нови инстанци се поставени да ги редефинираат стандардите за инферентност на генеративна вештачка интелигенција, нудејќи им на развивачите и претпријатијата неспоредливи перформанси и капацитет на меморија.
Amazon SageMaker AI е целосно управувана услуга која им обезбедува на развивачите и научниците за податоци алатки за градење, тренирање и распоредување модели за машинско учење во голем обем. Воведувањето на G7e инстанци означува клучен момент за работните оптоварувања на генеративна вештачка интелигенција на оваа платформа. Овие инстанци ги користат врвните NVIDIA RTX PRO 6000 Blackwell графички процесори, секој со импресивни 96 GB GDDR7 меморија. Ова значително зголемување на меморијата овозможува распоредување на значително поголеми основни модели (FM) директно на SageMaker AI, решавајќи критична потреба за напредни AI апликации.
Организациите сега можат да распоредат модели како GPT-OSS-120B, Nemotron-3-Super-120B-A12B (NVFP4 варијанта) и Qwen3.5-35B-A3B со извонредна ефикасност. Инстанцата G7e.2xlarge, која содржи еден графички процесор, може да хостира модели со 35B параметри, додека G7e.48xlarge, со осум графички процесори, скалира до модели со 300B параметри. Оваа флексибилност се претвора во опипливи придобивки: намалена оперативна сложеност, пониска латентност и значителни заштеди на трошоци за работните оптоварувања на инферентноста.
Откривање на генерацискиот скок во перформансите на G7e
G7e инстанците претставуваат монументален скок во однос на нивните претходници, G6e и G5, обезбедувајќи до 2,3 пати побрзи перформанси на инферентноста во споредба со G6e. Техничките спецификации го подвлекуваат овој генерациски напредок. Секој G7e графички процесор обезбедува неверојатен пропусен опсег од 1.597 GB/s, ефективно удвојувајќи ја меморијата по графички процесор на G6e и квадриплирајќи ја таа на G5. Понатаму, мрежните можности се драматично подобрени, скалирајќи до 1.600 Gbps со EFA на најголемата G7e големина. Ова зголемување од 4 пати во однос на G6e и 16 пати во однос на G5 го отклучува потенцијалот за инферентност со ниска латентност на повеќе јазли и сценарија за фино подесување кои претходно се сметаа за непрактични.
Еве споредба што го истакнува напредокот низ генерациите на ниво на 8-GPU:
| Спецификација | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
|---|---|---|---|
| GPU | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| GPU меморија по GPU | 24 GB GDDR6 | 48 GB GDDR6 | 96 GB GDDR7 |
| Вкупна GPU меморија | 192 GB | 384 GB | 768 GB |
| Пропусен опсег на GPU меморија | 600 GB/s по GPU | 864 GB/s по GPU | 1.597 GB/s по GPU |
| vCPU | 192 | 192 | 192 |
| Системска меморија | 768 GiB | 1.536 GiB | 2.048 GiB |
| Пропусен опсег на мрежата | 100 Gbps | 400 Gbps | 1.600 Gbps (EFA) |
| Локално NVMe складирање | 7.6 TB | 7.6 TB | 15.2 TB |
| Инферентност наспроти G6e | Базна линија | ~1x | До 2.3x |
Со колосални 768 GB агрегатна GPU меморија на една G7e инстанца, моделите кои некогаш бараа сложени повеќенодни конфигурации на постари инстанци сега можат да бидат распоредени со извонредна едноставност. Ова значително ја намалува латентноста помеѓу јазлите и оперативните трошоци. Во комбинација со поддршка за FP4 прецизност преку Tensor Cores од петта генерација и NVIDIA GPUDirect RDMA преку EFAv4, G7e инстанците се недвосмислено дизајнирани за барачки LLM, мултимодални AI и софистицирани агентски работни текови за инферентност на AWS.
Разновидни случаи на употреба на генеративна вештачка интелигенција на G7e
Робустната комбинација на густина на меморија, пропусен опсег и напредни мрежни способности ги прави G7e инстанците идеални за широк спектар на современи работни оптоварувања за генеративна вештачка интелигенција. Од подобрување на разговорната вештачка интелигенција до напојување на сложени физички симулации, G7e нуди опипливи предности:
- Чет-ботови и разговорна вештачка интелигенција: Ниското Време до прв токен (TTFT) и високата пропусност на G7e инстанците обезбедуваат респонзивни и беспрекорни интерактивни искуства, дури и кога се соочуваат со големи истовремени оптоварувања на корисници. Ова е клучно за одржување на ангажманот и задоволството на корисниците во интеракциите со вештачка интелигенција во реално време.
- Агентски работни текови и повикување алатки: За RAG цевководи (Retrieval Augmented Generation) и агентски системи, брзото инјектирање на контекст од складиштата за пребарување е најважно. 4 пати подобрениот пропусен опсег на процесорот до графичкиот процесор во рамките на G7e инстанците ги прави исклучително ефективни за овие критични операции, овозможувајќи поинтелигентни и подинамични AI агенти.
- Генерирање текст, сумирање и инферентност со долг контекст: Со 96 GB меморија по графички процесор, G7e инстанците вешто се справуваат со големи кешови на клучеви-вредности (KV). Ова овозможува проширени контексти на документи, значително намалувајќи ја потребата за скратување текст и олеснувајќи побогато, попрецизно расудување врз обемни влезови.
- Генерирање слики и визуелни модели: Таму каде што инстанците од претходната генерација често се соочуваа со грешки за недоволна меморија со поголеми мултимодални модели, удвоениот мемориски капацитет на G7e грациозно ги решава овие ограничувања, отворајќи го патот за пософистицирани AI апликации за слики и визија со повисока резолуција.
- Физичка вештачка интелигенција и научно компјутерство: Надвор од традиционалната генеративна вештачка интелигенција, пресметувачките можности на G7e од генерацијата Blackwell, поддршката за FP4 и можностите за просторно компјутерство (вклучувајќи DLSS 4.0 и RT јадра од 4-та генерација) ја прошируваат нејзината корисност за дигитални близнаци, 3D симулација и напредна инферентност на физички AI модели, отворајќи нови граници во научното истражување и индустриските апликации.
Поедноставено распоредување и бенчмаркинг на перформансите
Распоредувањето на модели за генеративна вештачка интелигенција на G7e инстанци преку Amazon SageMaker AI е дизајнирано да биде едноставно. Корисниците можат да пристапат до примерок на ноутбук овде што го поедноставува процесот. Предусловите обично вклучуваат AWS сметка, IAM улога за пристап до SageMaker и или Amazon SageMaker Studio или инстанца на SageMaker ноутбук за развојната околина. Важно, корисниците треба да побараат соодветна квота за ml.g7e.2xlarge или поголеми инстанци за употреба на крајната точка на SageMaker AI преку конзолата Service Quotas.
За да се демонстрираат значителните придобивки во перформансите, AWS изврши бенчмаркинг на Qwen3-32B (BF16) на G6e и G7e инстанци. Работното оптоварување вклучуваше приближно 1.000 влезни токени и 560 излезни токени по барање, имитирајќи вообичаени задачи за сумирање документи. Двете конфигурации го користеа оригиналниот vLLM контејнер со овозможено кеширање на префикси, обезбедувајќи директна споредба.
Резултатите се убедливи. Додека основната линија на G6e (ml.g6e.12xlarge со 4x L40S графички процесори по цена од 13,12 долари/час) покажа силна пропусност по барање, G7e (ml.g7e.2xlarge со 1x RTX PRO 6000 Blackwell по цена од 4,20 долари/час) раскажува драматично различна приказна за трошоците. При производствена истовременост (C=32), G7e постигна неверојатни 0,79 долари по милион излезни токени. Ова претставува 2,6 пати намалување на трошоците во споредба со 2,06 долари на G6e, водено од пониската часовна стапка на G7e и неговата способност да одржува конзистентна пропусност под оптоварување, докажувајќи дека високите перформанси не мора да доаѓаат по висока цена.
Иднината на исплатливата инферентност на генеративна вештачка интелигенција
Воведувањето на G7e инстанци на Amazon SageMaker AI е повеќе од само инкрементална надградба; тоа е стратешки потег на AWS за демократизирање на пристапот до високоперформансна генеративна вештачка интелигенција. Со комбинирање на суровата моќ на NVIDIA RTX PRO 6000 Blackwell графичките процесори со можностите за скалабилност и управување на SageMaker, AWS ги овластува организациите од сите големини да распоредат поголеми, посложени AI модели со невидена ефикасност и исплатливост. Овој развој гарантира дека напредоците во генеративната вештачка интелигенција можат да се претворат во практични, подготвени за производство апликации низ широк спектар на индустрии, зацврстувајќи ја позицијата на SageMaker AI како водечка платформа за AI иновации.
Оригинален извор
https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/Често поставувани прашања
What are G7e instances and how do they benefit generative AI inference?
Which NVIDIA GPU powers the new G7e instances, and what are its key features?
How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?
What types of generative AI workloads are best suited for deployment on G7e instances?
What is the cost efficiency of G7e instances compared to G6e for generative AI inference?
What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?
What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?
Бидете информирани
Добивајте ги најновите AI вести на е-пошта.
