title: "Generatiivisen tekoälyn päättely: Nopeuta SageMakerilla G7e-instansseilla" slug: "accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances" date: "2026-04-21" lang: "fi" source: "https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/" category: "Yritystason tekoäly" keywords:
- Generatiivinen tekoäly
- Tekoälypäättely
- Amazon SageMaker
- AWS G7e -instanssit
- NVIDIA RTX PRO 6000
- Suurten kielimallien käyttöönotto
- Kustannustehokas tekoäly
- GPU-muisti
- Blackwell
- vLLM
- Perusmallit
- Agenttityönkulut meta_description: "Nopeuta generatiivisen tekoälyn päättelyä Amazon SageMaker AI:ssa uusilla G7e-instansseilla, joita tehostavat NVIDIA RTX PRO 6000 Blackwell GPU:t, tarjoten 2,3-kertaisen suorituskyvyn ja kustannussäästöjä." image: "/images/articles/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances.png" image_alt: "Amazon SageMaker AI G7e -instanssit nopeuttavat generatiivisen tekoälyn päättelyä NVIDIA RTX PRO 6000 Blackwell GPU:illa." quality_score: 94 content_score: 93 seo_score: 95 companies:
- AWS schema_type: "NewsArticle" reading_time: 4 faq:
- question: "Mitä ovat G7e-instanssit ja miten ne hyödyttävät generatiivisen tekoälyn päättelyä?" answer: "G7e-instanssit ovat Amazon SageMaker AI:n uuden sukupolven GPU-kiihdytettyjä laskentainstansseja, jotka on erityisesti suunniteltu nopeuttamaan generatiivisen tekoälyn päättelytyökuormia. Niiden teho perustuu NVIDIA RTX PRO 6000 Blackwell Server Edition GPU:hin, jotka tarjoavat merkittäviä edistysaskeleita muistikapasiteetissa, kaistanleveydessä ja yleisessä päättelysuorituskyvyssä. Generatiivisen tekoälyn osalta G7e-instanssit tarkoittavat nopeampaa ensimmäisen tokenin aikaa (Time To First Token, TTFT), suurempaa suoritustehoa ja kykyä isännöidä paljon suurempia perusmalleja (FMs) yhdessä instanssissa tai jopa yhdellä GPU:lla. Tämä tarkoittaa responsiivisempia tekoälysovelluksia, vähentynyttä toiminnallista monimutkaisuutta ja merkittäviä kustannussäästöjä suurten kielimallien (LLM), multimodaalisen tekoälyn ja agenttityönkulkujen käyttöönotossa ja suorittamisessa. Niiden parannetut ominaisuudet tekevät niistä ihanteellisia interaktiivisiin sovelluksiin, jotka vaativat korkean suorituskyvyn ja kustannustehokasta päättelyä."
- question: "Mikä NVIDIA GPU tehostaa uusia G7e-instansseja ja mitkä ovat sen tärkeimmät ominaisuudet?" answer: "Amazon SageMaker AI:n uusia G7e-instansseja tehostavat NVIDIA RTX PRO 6000 Blackwell Server Edition GPU:t. Jokainen näistä huippuluokan GPU:ista tarjoaa vaikuttavan 96 GB GDDR7-muistin, mikä on kaksinkertainen muistikapasiteetti per GPU verrattuna edellisen sukupolven G6e-instansseihin. Tärkeimpiä ominaisuuksia ovat myös 1 597 GB/s GPU-muistin kaistanleveys per GPU, FP4-tarkkuuden tuki viidennen sukupolven Tensor Corejen kautta ja NVIDIA GPUDirect RDMA EFAv4:n yli. Nämä ominaisuudet yhdessä edistävät G7e-instanssien ylivoimaista päättelysuorituskykyä, muistitiheyttä ja matalaviiveistä verkostoitumista, tehden niistä poikkeuksellisen kyvykkäitä vaativiin generatiivisen tekoälyn tehtäviin."
- question: "Miten G7e-instanssit vertautuvat edellisiin sukupolviin (G6e, G5) suorituskyvyn ja muistin osalta?" answer: "G7e-instanssit osoittavat merkittävää sukupolvien välistä harppausta G6e:hen ja G5:een verrattuna. Ne tarjoavat jopa 2,3 kertaa paremman päättelysuorituskyvyn verrattuna G6e-instansseihin. Muistin osalta jokainen G7e GPU tarjoaa 96 GB GDDR7-muistia, mikä kaksinkertaistaa G6e:n ja nelinkertaistaa G5:n GPU-kohtaisen muistin. Huippuluokan G7e.48xlarge-instanssi tarjoaa yhteensä 768 GB GPU-muistia. Lisäksi verkon kaistanleveys skaalautuu jopa 1 600 Gbps:iin EFA:n kanssa suurimman G7e-koon yhteydessä, mikä on 4-kertainen harppaus G6e:hen verrattuna ja 16-kertainen G5:een verrattuna. Tämä valtava parannus muistissa, kaistanleveydessä ja verkostoitumisessa mahdollistaa sen, että G7e-instanssit voivat isännöidä malleja, jotka aiemmin vaativat usean solmun kokoonpanoja vanhemmilla instansseilla, mikä yksinkertaistaa käyttöönottoa ja vähentää viivettä."
- question: "Millaiset generatiivisen tekoälyn työkuormat soveltuvat parhaiten G7e-instansseihin?" answer: "G7e-instanssit soveltuvat poikkeuksellisen hyvin laajaan valikoimaan moderneja generatiivisen tekoälyn työkuormia korkean muistitiheytensä, kaistanleveytensä ja edistyneen verkostoitumisensa ansiosta. Näitä ovat: chatbotit ja keskusteleva tekoäly, jotka varmistavat matalan ensimmäisen tokenin ajan (TTFT) ja korkean suoritustehon responsiivisiin interaktiivisiin kokemuksiin; agentti- ja työkalukutsutyönkulut, jotka hyötyvät 4-kertaisesti parantuneesta CPU-to-GPU-kaistanleveydestä nopeaan kontekstin syöttöön RAG-putkissa; tekstin generointi, yhteenveto ja pitkän kontekstin päättely, jotka mahdollistavat suurten KV-välimuistien käytön laajennetuille asiakirjakonteksteille 96 GB:n GPU-kohtaisella muistilla; kuvagenerointi ja visuaaliset mallit, jotka ratkaisevat muistin loppumisongelmia suuremmille multimodaalisille malleille, jotka olivat vaikeuksissa edellisillä instansseilla; ja fyysinen tekoäly ja tieteellinen laskenta, jotka hyödyntävät Blackwell-sukupolven laskentatehoa, FP4-tukea ja spatiaalisen laskennan ominaisuuksia digitaalisiin kaksosiin ja 3D-simulaatioon."
- question: "Mikä on G7e-instanssien kustannustehokkuus verrattuna G6e:hen generatiivisen tekoälyn päättelyssä?" answer: "G7e-instanssit tarjoavat merkittävästi parantuneen kustannustehokkuuden generatiivisen tekoälyn päättelyssä verrattuna G6e-instansseihin. Qwen3-32B-mallin käyttöönottoa koskevat vertailut osoittivat, että G7e saavutti 0,79 dollaria miljoonaa tuotettua tokenia kohti tuotantotason samanaikaisella käytöllä (C=32). Tämä edustaa merkittävää 2,6-kertaista kustannussäästöä verrattuna G6e:n 2,06 dollariin miljoonaa tuotettua tokenia kohti vastaavassa työkuormassa. Tämä kustannussäästö johtuu pääasiassa G7e:n huomattavasti alhaisemmasta tuntihinnasta (esim. 4,20 $/h ml.g7e.2xlarge vs. 13,12 $/h ml.g6e.12xlarge) yhdistettynä sen kykyyn ylläpitää tasaista ja korkeaa suoritustehoa kuormituksen alaisena, mikä tekee siitä taloudellisemman valinnan laajamittaisiin käyttöönottoihin."
- question: "Mitkä ovat muistikapasiteetit LLM-mallien käyttöönotolle yhden ja useamman GPU:n G7e-instansseissa?" answer: "G7e-instanssit tarjoavat huomattavat muistikapasiteetit suurten kielimallien (LLM) käyttöönotolle. Yhden solmun GPU, tarkemmin sanottuna G7e.2xlarge-instanssi, voi tehokkaasti isännöidä perusmalleja, joissa on jopa 35 miljardia parametria FP16-tarkkuudella. Suuremmille malleille skaalaus useiden GPU:iden yli yhdessä instanssissa lisää dramaattisesti kapasiteettia: 4-GPU:n solmu (G7e.24xlarge) voi ottaa käyttöön malleja jopa 150 miljardiin parametriin asti, kun taas 8-GPU:n solmu (G7e.48xlarge) voi käsitellä jopa 300 miljardin parametrin malleja. Tämä vaikuttava skaalautuvuus tarjoaa organisaatioille joustavuuden ottaa käyttöön laajan valikoiman LLM-malleja ilman usean instanssin hajautettujen asennusten monimutkaisuutta."
- question: "Mitkä ovat edellytykset ratkaisujen käyttöönotolle G7e-instansseilla Amazon SageMaker AI:ssa?"
answer: "Generatiivisten tekoälyratkaisujen käyttöönotto G7e-instansseilla Amazon SageMaker AI:ssa edellyttää useiden vaatimusten täyttämistä. Tarvitset aktiivisen AWS-tilin resurssien isännöintiin ja AWS Identity and Access Management (IAM) -roolin, joka on määritetty asianmukaisilla käyttöoikeuksilla Amazon SageMaker AI -palveluihin. Kehitystä ja käyttöönottoa varten suositellaan pääsyä Amazon SageMaker Studioon tai SageMaker-muistikirjainstanssiin, vaikka muutkin interaktiiviset kehitysympäristöt, kuten PyCharm tai Visual Studio Code, ovat käyttökelpoisia. Tärkeää on, että sinun on pyydettävä vähintään yhden
ml.g7e.2xlarge-instanssin (tai suuremman G7e-instanssityypin) kiintiö Amazon SageMaker AI -päätepisteiden käyttöä varten AWS Service Quotas -konsolin kautta, sillä nämä ovat uusia ja erikoistuneita instanssityyppejä."
G7e-instanssit: Uusi aikakausi tekoälypäättelylle SageMakerissa
Generatiivisen tekoälyn maisema kehittyy ennennäkemätöntä vauhtia, mikä lisää jatkuvaa kysyntää tehokkaammalle, joustavammalle ja kustannustehokkaammalle infrastruktuurille. Tänään Code Velocity raportoi merkittävästä AWS:n edistyksestä: G7e-instanssien yleinen saatavuus Amazon SageMaker AI:ssa. Nämä uudet instanssit, jotka perustuvat NVIDIA RTX PRO 6000 Blackwell Server Edition GPU:hin, määrittelevät uudelleen generatiivisen tekoälyn päättelysuorituskyvyn vertailuarvot ja tarjoavat kehittäjille ja yrityksille ennennäkemättömän suorituskyvyn ja muistikapasiteetin.
Amazon SageMaker AI on täysin hallinnoitu palvelu, joka tarjoaa kehittäjille ja data-analyytikoille työkalut koneoppimismallien rakentamiseen, kouluttamiseen ja käyttöönottoon laajamittaisesti. G7e-instanssien käyttöönotto on käänteentekevä hetki generatiivisen tekoälyn työkuormille tällä alustalla. Nämä instanssit hyödyntävät huippuluokan NVIDIA RTX PRO 6000 Blackwell GPU:ita, joissa kussakin on vaikuttava 96 GB GDDR7-muistia. Tämä merkittävä muistin lisäys mahdollistaa huomattavasti suurempien perusmallien (FMs) käyttöönoton suoraan SageMaker AI:ssa, vastaten edistyneiden tekoälysovellusten kriittiseen tarpeeseen.
Organisaatiot voivat nyt ottaa käyttöön malleja, kuten GPT-OSS-120B, Nemotron-3-Super-120B-A12B (NVFP4-variantti) ja Qwen3.5-35B-A3B merkittävällä tehokkuudella. Yhden GPU:n G7e.2xlarge-instanssi voi isännöidä 35B-parametrimalleja, kun taas G7e.48xlarge, kahdeksalla GPU:lla, skaalautuu jopa 300B-parametrimalleihin. Tämä joustavuus merkitsee konkreettisia etuja: vähentynyttä toiminnallista monimutkaisuutta, pienempää viivettä ja huomattavia kustannussäästöjä päättelytyökuormissa.
G7e:n sukupolvien välisen suorituskykyharppauksen purkaminen
G7e-instanssit edustavat valtavaa harppausta edeltäjiinsä, G6e:hen ja G5:een, tarjoten jopa 2,3 kertaa nopeamman päättelysuorituskyvyn verrattuna G6e:hen. Tekniset tiedot korostavat tätä sukupolvien välistä edistysaskelta. Jokainen G7e GPU tarjoaa hämmästyttävän 1 597 GB/s kaistanleveyden, mikä kaksinkertaistaa G6e:n GPU-kohtaisen muistin ja nelinkertaistaa G5:n vastaavan. Lisäksi verkon ominaisuudet ovat parantuneet dramaattisesti, skaalautuen jopa 1 600 Gbps:iin EFA:n kanssa suurimman G7e-koon yhteydessä. Tämä 4-kertainen lisäys G6e:hen verrattuna ja 16-kertainen G5:een verrattuna avaa potentiaalin matalaviiveisille usean solmun päättely- ja hienosäätöskenaarioille, joita pidettiin aiemmin epäkäytännöllisinä.
Tässä vertailu, joka korostaa kehitystä sukupolvien välillä 8 GPU:n tasolla:
| Erittely | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
|---|---|---|---|
| GPU | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| GPU-muisti per GPU | 24 GB GDDR6 | 48 GB GDDR6 | 96 GB GDDR7 |
| Yhteensä GPU-muistia | 192 GB | 384 GB | 768 GB |
| GPU-muistin kaistanleveys | 600 GB/s per GPU | 864 GB/s per GPU | 1 597 GB/s per GPU |
| vCPU:t | 192 | 192 | 192 |
| Järjestelmämuisti | 768 GiB | 1 536 GiB | 2 048 GiB |
| Verkon kaistanleveys | 100 Gbps | 400 Gbps | 1 600 Gbps (EFA) |
| Paikallinen NVMe-tallennustila | 7,6 TB | 7,6 TB | 15,2 TB |
| Päättely vs. G6e | Perustaso | ~1x | Jopa 2,3x |
Yhdellä G7e-instanssilla on valtavat 768 GB yhdistettyä GPU-muistia, minkä ansiosta mallit, jotka aiemmin vaativat monimutkaisia usean solmun kokoonpanoja vanhemmilla instansseilla, voidaan nyt ottaa käyttöön huomattavalla yksinkertaisuudella. Tämä vähentää merkittävästi solmujen välistä viivettä ja toiminnallista ylikuormitusta. Yhdistettynä FP4-tarkkuuden tukeen viidennen sukupolven Tensor Corejen kautta ja NVIDIA GPUDirect RDMA:han EFAv4:n yli, G7e-instanssit on yksiselitteisesti suunniteltu vaativiin LLM-, multimodaalisen tekoälyn ja kehittyneisiin agenttityönkulkuihin AWS:ssä.
Monipuoliset generatiivisen tekoälyn käyttötapaukset menestyvät G7e:llä
Muistitiheyden, kaistanleveyden ja edistyneiden verkkoyhteyksien vankka yhdistelmä tekee G7e-instansseista ihanteellisia laajaan valikoimaan nykyaikaisia generatiivisen tekoälyn työkuormia. Keskustelullisen tekoälyn parantamisesta monimutkaisten fyysisten simulaatioiden tehostamiseen G7e tarjoaa konkreettisia etuja:
- Chatbotit ja keskusteleva tekoäly: G7e-instanssien matala ensimmäisen tokenin aika (Time To First Token, TTFT) ja korkea suoritusteho varmistavat responsiiviset ja saumattomat interaktiiviset kokemukset, jopa raskaiden samanaikaisten käyttäjäkuormien edessä. Tämä on ratkaisevan tärkeää käyttäjän sitoutumisen ja tyytyväisyyden ylläpitämiseksi reaaliaikaisissa tekoälyvuorovaikutuksissa.
- Agentti- ja työkalukutsutyönkulut: Retrieval Augmented Generation (RAG) -putkissa ja agenttijärjestelmissä nopea kontekstin syöttö hakuvarastoista on ensiarvoisen tärkeää. G7e-instanssien 4-kertainen parannus CPU-to-GPU-kaistanleveydessä tekee niistä poikkeuksellisen tehokkaita näissä kriittisissä toiminnoissa, mahdollistaen älykkäämmät ja dynaamisemmat tekoälyagentit.
- Tekstin generointi, yhteenveto ja pitkän kontekstin päättely: 96 GB:n GPU-kohtaisella muistilla G7e-instanssit käsittelevät taitavasti suuria Key-Value (KV) -välimuisteja. Tämä mahdollistaa laajennetut asiakirjakontekstit, vähentäen merkittävästi tekstin katkaisun tarvetta ja helpottaen rikkaampaa, vivahteikkaampaa päättelyä laajojen syötteiden yli.
- Kuvagenerointi ja visuaaliset mallit: Kun edellisen sukupolven instansseilla ilmeni usein muistin loppumisvirheitä suurempien multimodaalisten mallien kanssa, G7e:n kaksinkertainen muistikapasiteetti ratkaisee nämä rajoitukset vaivattomasti, tasoittaen tietä kehittyneemmille ja tarkemmille kuva- ja visuaalisen tekoälyn sovelluksille.
- Fyysinen tekoäly ja tieteellinen laskenta: Perinteisen generatiivisen tekoälyn lisäksi G7e:n Blackwell-sukupolven laskentateho, FP4-tuki ja spatiaalisen laskennan ominaisuudet (mukaan lukien DLSS 4.0 ja 4. sukupolven RT-ytimet) laajentavat sen käyttökelpoisuutta digitaalisiin kaksosiin, 3D-simulaatioon ja edistyneeseen fyysisen tekoälyn mallipäättelyyn, avaten uusia rajoja tieteellisessä tutkimuksessa ja teollisissa sovelluksissa.
Virtaviivainen käyttöönotto ja suorituskyvyn vertailu
Generatiivisten tekoälymallien käyttöönotto G7e-instansseilla Amazon SageMaker AI:n kautta on suunniteltu yksinkertaiseksi. Käyttäjät voivat käyttää mallimuistikirjaa täältä, joka virtaviivaistaa prosessia. Edellytykset sisältävät tyypillisesti AWS-tilin, IAM-roolin SageMaker-käyttöä varten ja joko Amazon SageMaker Studion tai SageMaker-muistikirjainstanssin kehitysympäristöä varten. Tärkeää on, että käyttäjien tulee pyytää asianmukainen kiintiö ml.g7e.2xlarge tai suuremmille instansseille SageMaker AI -päätepisteiden käyttöä varten Service Quotas -konsolin kautta.
Merkittävien suorituskykyparannusten demonstroimiseksi AWS vertaili Qwen3-32B:tä (BF16) sekä G6e- että G7e-instansseissa. Työkuorma sisälsi noin 1 000 syöttötokenia ja 560 tuotettua tokenia pyyntöä kohti, matkien yleisiä asiakirjojen yhteenvedon tehtäviä. Molemmat kokoonpanot käyttivät alkuperäistä vLLM-konttia etuliitteen välimuistitoiminnolla (prefix caching) varmistaen vertailukelpoisen vertailun.
Tulokset ovat vakuuttavat. Vaikka G6e:n perustaso (ml.g6e.12xlarge 4x L40S GPU:lla hintaan 13,12 $/h) osoitti vahvaa suoritustehoa per pyyntö, G7e (ml.g7e.2xlarge 1x RTX PRO 6000 Blackwell GPU:lla hintaan 4,20 $/h) kertoo dramaattisesti erilaisen kustannustarinan. Tuotantotason samanaikaisella käytöllä (C=32) G7e saavutti hämmästyttävän 0,79 dollaria miljoonaa tuotettua tokenia kohti. Tämä edustaa 2,6-kertaista kustannussäästöä verrattuna G6e:n 2,06 dollariin, johtuen G7e:n alhaisemmasta tuntihinnasta ja sen kyvystä ylläpitää tasaista suoritustehoa kuormituksen alaisena, mikä todistaa, että korkea suorituskyky ei aina tarkoita korkeita kustannuksia.
Kustannustehokkaan generatiivisen tekoälypäättelyn tulevaisuus
G7e-instanssien käyttöönotto Amazon SageMaker AI:ssa on enemmän kuin vain inkrementaalinen päivitys; se on AWS:n strateginen siirto demokratisoida korkean suorituskyvyn generatiivisen tekoälyn käyttöä. Yhdistämällä NVIDIA RTX PRO 6000 Blackwell GPU:iden raa'an tehon SageMakerin skaalautuvuus- ja hallintaominaisuuksiin, AWS antaa kaikenkokoisille organisaatioille mahdollisuuden ottaa käyttöön suurempia, monimutkaisempia tekoälymalleja ennennäkemättömällä tehokkuudella ja kustannustehokkuudella. Tämä kehitys varmistaa, että generatiivisen tekoälyn edistysaskeleet voidaan muuttaa käytännöllisiksi, tuotantovalmiiksi sovelluksiksi useilla eri toimialoilla, vahvistaen SageMaker AI:n asemaa johtavana tekoälyinnovaatioalustana.
Alkuperäinen lähde
https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/Usein kysytyt kysymykset
What are G7e instances and how do they benefit generative AI inference?
Which NVIDIA GPU powers the new G7e instances, and what are its key features?
How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?
What types of generative AI workloads are best suited for deployment on G7e instances?
What is the cost efficiency of G7e instances compared to G6e for generative AI inference?
What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?
What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?
Pysy ajan tasalla
Saa uusimmat tekoälyuutiset sähköpostiisi.
