Generatyvinio dirbtinio intelekto išvados: spartinimas „SageMaker“ naudojant G7e egzempliorius

title: "Generatyvinio dirbtinio intelekto išvados: spartinimas „SageMaker“ naudojant G7e egzempliorius" slug: "accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances" date: "2026-04-21" lang: "lt" source: "https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/" category: "Verslo DI" keywords:

Generatyvinis DI
DI išvados
Amazon SageMaker
AWS G7e egzemplioriai
NVIDIA RTX PRO 6000
Didelių kalbos modelių diegimas
Ekonomiškas DI
GPU atmintis
Blackwell
vLLM
Baziniai modeliai
Agentiniai darbo srautai meta_description: "Paspartinkite generatyvinio dirbtinio intelekto išvadas „Amazon SageMaker AI“ naudodami naujus G7e egzempliorius, varomus NVIDIA RTX PRO 6000 Blackwell GPU, užtikrinančius 2,3 karto didesnį našumą ir išlaidų taupymą." image: "/images/articles/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances.png" image_alt: "„Amazon SageMaker AI“ G7e egzemplioriai spartina generatyvinio dirbtinio intelekto išvadas su NVIDIA RTX PRO 6000 Blackwell GPU." quality_score: 94 content_score: 93 seo_score: 95 companies:
AWS schema_type: "NewsArticle" reading_time: 4 faq:
question: "Kas yra G7e egzemplioriai ir kokią naudą jie teikia generatyvinio DI išvadoms?" answer: "G7e egzemplioriai yra naujausios kartos GPU spartinamieji skaičiavimo egzemplioriai, prieinami „Amazon SageMaker AI“, specialiai sukurti generatyvinio DI išvadų darbo krūviams spartinti. Juos varo NVIDIA RTX PRO 6000 Blackwell Server Edition GPU, siūlantys reikšmingus atminties talpos, pralaidumo ir bendro išvadų našumo patobulinimus. Generatyvinio DI atveju, G7e egzemplioriai reiškia greitesnį pirmojo žetono gavimo laiką (TTFT), didesnį pralaidumą ir galimybę talpinti daug didesnius bazinius modelius (FM) viename egzemplioriuje, ar net viename GPU. Tai reiškia jautresnes DI programas, sumažintą veiklos sudėtingumą ir didelį išlaidų taupymą diegiant ir vykdant didelius kalbos modelius (LLM), daugiamodelius DI ir agentinius darbo srautus. Jų patobulintos galimybės daro juos idealiais interaktyvioms programoms, reikalaujančioms didelio našumo ir ekonomiškų išvadų."
question: "Kuris NVIDIA GPU varo naujus G7e egzempliorius ir kokios yra pagrindinės jo savybės?" answer: "Naujus G7e egzempliorius „Amazon SageMaker AI“ varo NVIDIA RTX PRO 6000 Blackwell Server Edition GPU. Kiekvienas iš šių pažangių GPU suteikia įspūdingą 96 GB GDDR7 atminties, kuri yra dvigubai didesnė atminties talpa vienam GPU, palyginti su ankstesniais G6e egzemplioriais. Pagrindinės savybės taip pat apima 1 597 GB/s GPU atminties pralaidumą vienam GPU, FP4 tikslumo palaikymą per penktosios kartos „Tensor Cores“ ir NVIDIA GPUDirect RDMA per EFAv4. Šios savybės kartu prisideda prie G7e egzempliorių pranašesnio išvadų našumo, atminties tankio ir mažos delsties tinklų, todėl jie yra išskirtinai pajėgūs reiklioms generatyvinio DI užduotims."
question: "Kaip G7e egzemplioriai lyginami su ankstesnėmis kartomis (G6e, G5) pagal našumą ir atmintį?" answer: "G7e egzemplioriai demonstruoja reikšmingą kartų šuolį, palyginti su G6e ir G5. Jie užtikrina iki 2,3 karto didesnį išvadų našumą, palyginti su G6e egzemplioriais. Kalbant apie atmintį, kiekvienas G7e GPU siūlo 96 GB GDDR7 atminties, efektyviai padvigubindamas G6e GPU atmintį ir keturgubindamas G5. Aukščiausios klasės G7e.48xlarge egzempliorius suteikia bendrą 768 GB visos GPU atminties. Be to, tinklo pralaidumas padidėja iki 1 600 Gbps su EFA didžiausioje G7e konfigūracijoje, t.y. 4 kartus daugiau nei G6e ir 16 kartų daugiau nei G5. Šis didžiulis atminties, pralaidumo ir tinklo patobulinimas leidžia G7e egzemplioriams talpinti modelius, kuriems anksčiau reikėjo kelių mazgų nustatymų senesniuose egzemplioriuose, supaprastinant diegimą ir mažinant delsą."
question: "Kokio tipo generatyvinio DI darbo krūviai geriausiai tinka diegti G7e egzemplioriuose?" answer: "G7e egzemplioriai yra išskirtinai tinkami įvairiems šiuolaikiniams generatyvinio DI darbo krūviams dėl didelio atminties tankio, pralaidumo ir pažangių tinklų. Tai apima: Pokalbių robotus ir konversacinį DI, užtikrinančius mažą pirmojo žetono gavimo laiką (TTFT) ir didelį pralaidumą, reikalingą jautrioms interaktyvioms patirtims; Agentinius ir įrankių iškvietimo darbo srautus, kuriems naudingas 4 kartus patobulintas CPU-GPU pralaidumas greitam konteksto įterpimui RAG konvejeriuose; Teksto generavimą, apibendrinimą ir ilgą konteksto išvadų darymą, talpinant dideles KV talpyklas išplėstiniams dokumentų kontekstams su 96 GB atminties vienam GPU; Vaizdų generavimą ir vaizdo modelius, įveikiant atminties trūkumo klaidas didesniems daugiamodeliams modeliams, kurie turėjo problemų su ankstesniais egzemplioriais; ir Fizinį DI bei mokslinius skaičiavimus, išnaudojant Blackwell kartos skaičiavimą, FP4 palaikymą ir erdvines skaičiavimo galimybes skaitmeniniams dvyniams ir 3D simuliacijai."
question: "Koks yra G7e egzempliorių ekonomiškumas, palyginti su G6e, generatyvinio DI išvadoms?" answer: "G7e egzemplioriai siūlo žymiai geresnį išlaidų efektyvumą generatyvinio DI išvadoms, palyginti su G6e egzemplioriais. Bandymai su Qwen3-32B parodė, kad G7e pasiekė 0,79 USD už milijoną išvesties žetonų esant gamybos konkurenciniam režimui (C=32). Tai yra įspūdingas 2,6 karto išlaidų sumažinimas, palyginti su G6e 2,06 USD už milijoną išvesties žetonų panašiam darbo krūviui. Šis išlaidų taupymas daugiausia lemia G7e žymiai mažesnė valandinė norma (pvz., 4,20 USD/val. už ml.g7e.2xlarge, palyginti su 13,12 USD/val. už ml.g6e.12xlarge), kartu su jo gebėjimu išlaikyti pastovų ir didelį pralaidumą esant apkrovai, todėl tai yra ekonomiškesnis pasirinkimas didelio masto diegimams."
question: "Kokios yra atminties talpos LLM diegimui vieno ir kelių GPU G7e egzemplioriuose?" answer: "G7e egzemplioriai siūlo didelę atminties talpą didelių kalbos modelių (LLM) diegimui. Vieno mazgo GPU, konkrečiai G7e.2xlarge egzempliorius, gali efektyviai talpinti bazinius modelius su iki 35 milijardų parametrų FP16 tikslumu. Didesniems modeliams, išplečiant per kelis GPU viename egzemplioriuje, talpa dramatiškai padidėja: 4 GPU mazgas (G7e.24xlarge) gali diegti modelius iki 150 milijardų parametrų, o 8 GPU mazgas (G7e.48xlarge) gali apdoroti modelius iki 300 milijardų parametrų. Šis įspūdingas mastelio keitimas suteikia organizacijoms lankstumą diegti platų LLM asortimentą be kelių egzempliorių paskirstytų nustatymų sudėtingumo."
question: "Kokios yra būtinos sąlygos sprendimų diegimui, naudojant G7e egzempliorius „Amazon SageMaker AI“?" answer: "Norint diegti generatyvinio DI sprendimus naudojant G7e egzempliorius „Amazon SageMaker AI“, reikia atitikti keletą būtinų sąlygų. Jums reikalinga aktyvi AWS paskyra, kad galėtumėte talpinti savo išteklius, ir AWS Identity and Access Management (IAM) rolė, sukonfigūruota su atitinkamais leidimais pasiekti „Amazon SageMaker AI“ paslaugas. Kūrimui ir diegimui rekomenduojama naudoti „Amazon SageMaker Studio“ arba „SageMaker“ nešiojamojo kompiuterio egzempliorių, nors kiti interaktyvūs kūrimo aplinkos, tokios kaip „PyCharm“ ar „Visual Studio Code“, taip pat tinka. Svarbiausia, kad turite paprašyti kvotos bent vienam ml.g7e.2xlarge egzemplioriui (arba didesniam G7e egzemplioriaus tipui) „Amazon SageMaker AI“ galutinio taško naudojimui per AWS Service Quotas konsolę, nes tai yra nauji ir specializuoti egzempliorių tipai."


## G7e egzemplioriai: nauja DI išvadų era „SageMaker“ platformoje

Generatyvinio dirbtinio intelekto (DI) kraštovaizdis vystosi precedento neturinčiu tempu, nuolat skatinant didesnės galios, lankstumo ir ekonomiškos infrastruktūros poreikį. Šiandien „Code Velocity“ džiaugiasi galėdama pranešti apie reikšmingą AWS pažangą: bendrą G7e egzempliorių prieinamumą „Amazon SageMaker AI“ platformoje. Šie nauji egzemplioriai, varomi NVIDIA RTX PRO 6000 Blackwell Server Edition GPU, yra skirti iš naujo apibrėžti generatyvinio DI išvadų etalonus, siūlydami kūrėjams ir įmonėms neprilygstamą našumą ir atminties talpą.

„Amazon SageMaker AI“ yra visiškai valdoma paslauga, teikianti kūrėjams ir duomenų mokslininkams įrankius mašininio mokymosi modeliams kurti, apmokyti ir diegti dideliu mastu. G7e egzempliorių pristatymas žymi lemiamą momentą generatyvinio DI darbo krūviams šioje platformoje. Šie egzemplioriai naudoja pažangius NVIDIA RTX PRO 6000 Blackwell GPU, kurių kiekvienas pasižymi įspūdinga 96 GB GDDR7 atminties. Šis žymus atminties padidėjimas leidžia diegti žymiai didesnius bazinius modelius (FM) tiesiogiai „SageMaker AI“, patenkinant kritinį pažangių DI programų poreikį.

Organizacijos dabar gali diegti tokius modelius kaip GPT-OSS-120B, Nemotron-3-Super-120B-A12B (NVFP4 variantas) ir Qwen3.5-35B-A3B su nepaprastu efektyvumu. G7e.2xlarge egzempliorius, turintis vieną GPU, gali talpinti 35B parametrų modelius, o G7e.48xlarge, su aštuoniais GPU, mastelį didina iki 300B parametrų modelių. Šis lankstumas reiškia apčiuopiamą naudą: sumažintą veiklos sudėtingumą, mažesnę delsą ir didelį išlaidų taupymą išvadų darbo krūviams.

## Išskleidus G7e kartų našumo šuolį

G7e egzemplioriai žymi monumentalų šuolį, palyginti su savo pirmtakais, G6e ir G5, užtikrindami iki 2,3 karto didesnį išvadų našumą, palyginti su G6e. Techninės specifikacijos pabrėžia šią kartų pažangą. Kiekvienas G7e GPU suteikia stulbinantį 1 597 GB/s pralaidumą, efektyviai padvigubindamas G6e GPU atmintį ir keturgubindamas G5. Be to, tinklo galimybės yra žymiai patobulintos, didėjant iki 1 600 Gbps su EFA didžiausiame G7e dydyje. Šis 4 kartų padidėjimas, palyginti su G6e, ir 16 kartų, palyginti su G5, atveria galimybes mažos delsties kelių mazgų išvadoms ir smulkiam derinimui, kurie anksčiau buvo laikomi nepraktiški.

Štai palyginimas, pabrėžiantis pažangą tarp kartų 8 GPU lygmeniu:

| Spec | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
| --- | --- | --- | --- |
| **GPU** | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| **GPU atmintis vienam GPU** | 24 GB GDDR6 | 48 GB GDDR6 | 96 GB GDDR7 |
| **Bendra GPU atmintis** | 192 GB | 384 GB | 768 GB |
| **GPU atminties pralaidumas** | 600 GB/s per GPU | 864 GB/s per GPU | 1,597 GB/s per GPU |
| **vCPU** | 192 | 192 | 192 |
| **Sistemos atmintis** | 768 GiB | 1,536 GiB | 2,048 GiB |
| **Tinklo pralaidumas** | 100 Gbps | 400 Gbps | 1,600 Gbps (EFA) |
| **Vietinė NVMe saugykla** | 7.6 TB | 7.6 TB | 15.2 TB |
| **Išvados vs. G6e** | Bazinis | ~1x | Iki 2.3x |

Turint kolosalų 768 GB bendros GPU atminties viename G7e egzemplioriuje, modeliai, kuriems anksčiau reikėjo sudėtingų kelių mazgų konfigūracijų senesniuose egzemplioriuose, dabar gali būti diegiami nepaprastai paprastai. Tai žymiai sumažina tarpmazgių delsą ir veiklos sąnaudas. Kartu su FP4 tikslumo palaikymu per penktosios kartos „Tensor Cores“ ir NVIDIA GPUDirect RDMA per EFAv4, G7e egzemplioriai yra nedviprasmiškai sukurti reikliems didelių kalbos modelių (LLM), daugiamodelių DI ir sudėtingiems [agentiniams išvadų darbo srautams](/lt/operationalizing-agentic-ai-part-1-a-stakeholders-guide) AWS platformoje.

## Įvairūs generatyvinio DI naudojimo atvejai klesti naudojant G7e

Tvirta atminties tankio, pralaidumo ir pažangių tinklo galimybių kombinacija daro G7e egzempliorius idealiais plačiam šiuolaikinių generatyvinio DI darbo krūvių spektrui. Nuo konversacinio DI tobulinimo iki sudėtingų fizinių simuliacijų vykdymo, G7e siūlo apčiuopiamų privalumų:

*   **Pokalbių robotai ir konversacinis DI**: Žemas pirmojo žetono gavimo laikas (TTFT) ir didelis G7e egzempliorių pralaidumas užtikrina jautrias ir sklandžias interaktyvias patirtis, net ir susidūrus su dideliu vienalaikių vartotojų skaičiumi. Tai labai svarbu norint išlaikyti vartotojų įsitraukimą ir pasitenkinimą realiojo laiko DI sąveikose.
*   **Agentiniai ir įrankių iškvietimo darbo srautai**: „Retrieval Augmented Generation“ (RAG) konvejeriuose ir agentinėse sistemose greitas konteksto įterpimas iš paieškos saugyklų yra itin svarbus. G7e egzempliorių 4 kartus didesnis CPU-GPU pralaidumas daro juos išskirtinai efektyviais šioms kritinėms operacijoms, leidžiant sukurti protingesnius ir dinamiškesnius DI agentus.
*   **Teksto generavimas, apibendrinimas ir ilgų kontekstų išvados**: Turėdami 96 GB atminties vienam GPU, G7e egzemplioriai sumaniai apdoroja dideles raktų-verčių (KV) talpyklas. Tai leidžia išplėsti dokumentų kontekstus, žymiai sumažinant teksto apribojimo poreikį ir palengvinant turtingesnį, niuansuotą mąstymą apie didžiulius duomenų srautus.
*   **Vaizdų generavimas ir vaizdo modeliai**: Kai ankstesnės kartos egzemplioriai dažnai susidurdavo su atminties trūkumo klaidomis su didesniais daugiamodeliais modeliais, G7e dviguba atminties talpa elegantiškai išsprendžia šiuos apribojimus, atverdama kelią sudėtingesnėms ir didesnės raiškos vaizdų ir vaizdo DI programoms.
*   **Fizinis DI ir moksliniai skaičiavimai**: Be tradicinio generatyvinio DI, G7e „Blackwell“ kartos skaičiavimo galia, FP4 palaikymas ir erdvinės skaičiavimo galimybės (įskaitant DLSS 4.0 ir 4-osios kartos RT branduolius) išplečia jo panaudojimą skaitmeniniams dvyniams, 3D simuliacijai ir pažangioms fizinio DI modelių išvadoms, atveriant naujas ribas moksliniuose tyrimuose ir pramoninėse programose.

## Supaprastintas diegimas ir našumo etalonai

Generatyvinio DI modelių diegimas G7e egzemplioriuose per „Amazon SageMaker AI“ yra sukurtas taip, kad būtų paprastas. Vartotojai gali pasiekti pavyzdinį užrašų knygelę [čia](https://github.com/aws-samples/sagemaker-genai-hosting-examples/tree/main/03-features/instances/g7e), kuris supaprastina procesą. Būtinos sąlygos paprastai apima AWS paskyrą, IAM rolę, skirtą prieigai prie „SageMaker“, ir „Amazon SageMaker Studio“ arba „SageMaker“ užrašų knygelės egzempliorių kūrimo aplinkai. Svarbu, kad vartotojai per „Service Quotas“ konsolę paprašytų atitinkamos kvotos `ml.g7e.2xlarge` ar didesniems egzemplioriams, skirtiems „Amazon SageMaker AI“ galutinio taško naudojimui.

Siekiant pademonstruoti reikšmingą našumo padidėjimą, AWS atliko Qwen3-32B (BF16) etaloninius bandymus G6e ir G7e egzemplioriuose. Darbo krūvį sudarė maždaug 1 000 įvesties žetonų ir 560 išvesties žetonų vienai užklausai, imituojant įprastas dokumentų apibendrinimo užduotis. Abi konfigūracijos naudojo vietinį [vLLM](https://github.com/vllm-project/vllm) konteinerį su įjungta priešdėlio talpykla, užtikrinančią objektyvų palyginimą.

Rezultatai įtikinami. Nors G6e bazinė konfigūracija (ml.g6e.12xlarge su 4x L40S GPU už 13,12 USD/val.) demonstravo didelį pralaidumą vienai užklausai, G7e (ml.g7e.2xlarge su 1x RTX PRO 6000 Blackwell už 4,20 USD/val.) pasakoja dramatiškai kitokią kainos istoriją. Esant gamybos konkurenciniam režimui (C=32), G7e pasiekė stulbinančius 0,79 USD už milijoną išvesties žetonų. Tai reiškia 2,6 karto mažesnes išlaidas, palyginti su G6e 2,06 USD, o tai lemia mažesnė G7e valandinė norma ir jos gebėjimas išlaikyti pastovų pralaidumą esant apkrovai, įrodant, kad didelis našumas neturi reikšti didelės kainos.

## Ekonomiško generatyvinio DI išvadų ateitis

G7e egzempliorių pristatymas „Amazon SageMaker AI“ yra daugiau nei tik laipsniškas atnaujinimas; tai yra strateginis AWS žingsnis siekiant demokratizuoti prieigą prie didelio našumo generatyvinio DI. Sujungdama NVIDIA RTX PRO 6000 Blackwell GPU galią su „SageMaker“ mastelio keitimo ir valdymo galimybėmis, AWS suteikia galimybę visų dydžių organizacijoms diegti didesnius, sudėtingesnius DI modelius su precedento neturinčiu efektyvumu ir ekonomiškumu. Šis vystymasis užtikrina, kad generatyvinio DI pažanga gali būti paversta praktinėmis, gamybai paruoštomis programomis įvairiose pramonės šakose, įtvirtinant „SageMaker AI“ poziciją kaip pirmaujančią DI inovacijų platformą.

Originalus šaltinis

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Dažniausiai užduodami klausimai

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Būkite informuoti

Gaukite naujausias AI naujienas el. paštu.

Dalintis