G7e instances: Jauna ēra AI secinājumiem pakalpojumā SageMaker
Ģeneratīvā AI ainava attīstās nepieredzētā tempā, radot nepārtrauktu pieprasījumu pēc jaudīgākas, elastīgākas un izmaksu ziņā efektīvākas infrastruktūras. Šodien Code Velocity ar sajūsmu ziņo par ievērojamu AWS sasniegumu: G7e instanču vispārējo pieejamību pakalpojumā Amazon SageMaker AI. Darbinātas ar NVIDIA RTX PRO 6000 Blackwell Server Edition GPU, šīs jaunās instances ir gatavas no jauna definēt ģeneratīvā AI secinājumu etalonus, piedāvājot izstrādātājiem un uzņēmumiem nepārspējamu veiktspēju un atmiņas kapacitāti.
Amazon SageMaker AI ir pilnībā pārvaldīts pakalpojums, kas nodrošina izstrādātājiem un datu zinātniekiem rīkus mašīnmācīšanās modeļu izveidei, apmācībai un izvietošanai lielā mērogā. G7e instanču ieviešana iezīmē būtisku brīdi ģeneratīvā AI darba slodzēm šajā platformā. Šīs instances izmanto vismodernākos NVIDIA RTX PRO 6000 Blackwell GPU, katrs ar iespaidīgiem 96 GB GDDR7 atmiņas. Šis ievērojamais atmiņas palielinājums ļauj izvietot ievērojami lielākus pamatmodeļus (FM) tieši pakalpojumā SageMaker AI, apmierinot kritisko vajadzību pēc progresīvām AI lietojumprogrammām.
Organizācijas tagad var izvietot tādus modeļus kā GPT-OSS-120B, Nemotron-3-Super-120B-A12B (NVFP4 variants) un Qwen3.5-35B-A3B ar ievērojamu efektivitāti. G7e.2xlarge instance, kas aprīkota ar vienu GPU, var uzņemt 35B parametru modeļus, savukārt G7e.48xlarge, ar astoņiem GPU, mērogojas līdz 300B parametru modeļiem. Šī elastība sniedz taustāmus ieguvumus: samazināta darbības sarežģītība, mazāks latentums un ievērojami izmaksu ietaupījumi secinājumu darba slodzēm.
G7e paaudžu veiktspējas lēciena izpakošana
G7e instances ir milzīgs lēciens salīdzinājumā ar saviem priekšgājējiem G6e un G5, nodrošinot līdz pat 2,3 reizēm ātrāku secinājumu veiktspēju salīdzinājumā ar G6e. Tehniskās specifikācijas uzsver šo paaudžu progresu. Katrs G7e GPU nodrošina pārsteidzošu 1597 GB/s joslas platumu, efektīvi dubultojot G6e GPU atmiņu un četrkāršojot G5. Turklāt tīkla iespējas ir dramatiski uzlabotas, mērogojoties līdz 1600 Gbps ar EFA lielākajā G7e izmērā. Šis 4 reizes pieaugums salīdzinājumā ar G6e un 16 reizes salīdzinājumā ar G5 atklāj potenciālu zema latentuma vairāku mezglu secinājumiem un precizēšanas scenārijiem, kas iepriekš tika uzskatīti par nepraktiskiem.
Šeit ir salīdzinājums, kas izceļ progresu pa paaudzēm 8 GPU līmenī:
| Specifikācija | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
|---|---|---|---|
| GPU | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| GPU atmiņa katram GPU | 24 GB GDDR6 | 48 GB GDDR6 | 96 GB GDDR7 |
| Kopējā GPU atmiņa | 192 GB | 384 GB | 768 GB |
| GPU atmiņas joslas platums | 600 GB/s katram GPU | 864 GB/s katram GPU | 1597 GB/s katram GPU |
| vCPU | 192 | 192 | 192 |
| Sistēmas atmiņa | 768 GiB | 1536 GiB | 2048 GiB |
| Tīkla joslas platums | 100 Gbps | 400 Gbps | 1600 Gbps (EFA) |
| Lokālā NVMe krātuve | 7.6 TB | 7.6 TB | 15.2 TB |
| Secinājumi salīdzinājumā ar G6e | Bāzes līnija | ~1x | Līdz 2.3x |
Ar milzīgajiem 768 GB kopējās GPU atmiņas vienā G7e instancē modeļus, kuriem agrāk bija nepieciešamas sarežģītas vairāku mezglu konfigurācijas vecākās instancēs, tagad var izvietot ar ievērojamu vienkāršību. Tas ievērojami samazina starpmezglu latentumu un darbības izmaksas. Apvienojumā ar FP4 precizitātes atbalstu, izmantojot piektās paaudzes Tensor Cores un NVIDIA GPUDirect RDMA, izmantojot EFAv4, G7e instances ir nepārprotami paredzētas sarežģītām LVM, multimodālā AI un sarežģītām aģentiskajiem secinājumu darbplūsmām AWS.
Dažādi ģeneratīvā AI lietošanas gadījumi veiksmīgi attīstās uz G7e
Izturīgā atmiņas blīvuma, joslas platuma un progresīvo tīkla iespēju kombinācija padara G7e instances ideāli piemērotas plašam mūsdienu ģeneratīvā AI darba slodžu klāstam. No sarunvalodas AI uzlabošanas līdz sarežģītu fizisko simulāciju darbināšanai, G7e piedāvā taustāmas priekšrocības:
- Tērzēšanas roboti un sarunvalodas AI: Zems pirmā marķiera laiks (TTFT) un augsta G7e instanču caurlaides spēja nodrošina atsaucīgu un vienmērīgu interaktīvu pieredzi pat pie lielām vienlaicīgām lietotāju slodzēm. Tas ir būtiski, lai saglabātu lietotāju iesaisti un apmierinātību reāllaika AI mijiedarbībā.
- Aģentiskas un rīku izsaukšanas darbplūsmas: Retrieval Augmented Generation (RAG) cauruļvadiem un aģentiskām sistēmām ātra konteksta injekcija no iegūšanas krātuvēm ir vissvarīgākā. G7e instanču 4 reizes uzlabotais CPU-GPU joslas platums padara tās ārkārtīgi efektīvas šīm kritiskajām operācijām, ļaujot izveidot inteliģentākus un dinamiskākus AI aģentus.
- Teksta ģenerēšana, kopsavilkumu veidošana un garu kontekstu secinājumi: Ar 96 GB atmiņas katram GPU, G7e instances veiksmīgi apstrādā lielas Key-Value (KV) kešatmiņas. Tas ļauj izmantot paplašinātus dokumentu kontekstus, ievērojami samazinot vajadzību pēc teksta saīsināšanas un veicinot bagātīgāku, niansētāku spriedumu par plašiem ievadiem.
- Attēlu ģenerēšana un redzes modeļi: Tur, kur iepriekšējās paaudzes instances bieži saskārās ar atmiņas trūkuma kļūdām lielākiem multimodāliem modeļiem, G7e dubultotā atmiņas kapacitāte graciozi atrisina šos ierobežojumus, paverot ceļu sarežģītākām un augstākas izšķirtspējas attēlu un redzes AI lietojumprogrammām.
- Fiziskais AI un zinātniskā skaitļošana: Papildus tradicionālajam ģeneratīvajam AI, G7e Blackwell paaudzes skaitļošana, FP4 atbalsts un telpiskās skaitļošanas iespējas (ieskaitot DLSS 4.0 un 4. paaudzes RT kodolus) paplašina tās lietderību digitālajiem dvīņiem, 3D simulācijai un progresīvu fiziskā AI modeļu secinājumiem, atverot jaunas robežas zinātniskajā pētniecībā un rūpnieciskajās lietojumprogrammās.
Vienkāršota izvietošana un veiktspējas etalonu noteikšana
Ģeneratīvā AI modeļu izvietošana uz G7e instancēm, izmantojot Amazon SageMaker AI, ir izstrādāta, lai būtu vienkārša. Lietotāji var piekļūt parauga piezīmju grāmatiņai šeit, kas vienkāršo procesu. Priekšnoteikumi parasti ietver AWS kontu, IAM lomu SageMaker piekļuvei un vai nu Amazon SageMaker Studio, vai SageMaker piezīmjdatora instanci izstrādes videi. Svarīgi ir, ka lietotājiem ir jāpieprasa atbilstoša kvota ml.g7e.2xlarge vai lielākām instancēm SageMaker AI gala punkta izmantošanai, izmantojot pakalpojumu kvotu konsoli.
Lai demonstrētu ievērojamos veiktspējas ieguvumus, AWS veica Qwen3-32B (BF16) etalonu testēšanu gan uz G6e, gan G7e instancēm. Darba slodze ietvēra aptuveni 1000 ievades marķierus un 560 izvades marķierus uz pieprasījumu, imitējot tipiskus dokumentu kopsavilkuma uzdevumus. Abas konfigurācijas izmantoja natīvo vLLM konteineru ar prefiksa kešatmiņas iespējošanu, nodrošinot salīdzinājumu 'ābols pret ābolu'.
Rezultāti ir pārliecinoši. Lai gan G6e bāzes līnija (ml.g6e.12xlarge ar 4x L40S GPU par 13,12 ASV dolāriem/stundā) parādīja spēcīgu caurlaides spēju uz pieprasījumu, G7e (ml.g7e.2xlarge ar 1x RTX PRO 6000 Blackwell par 4,20 ASV dolāriem/stundā) stāsta dramatiski atšķirīgu izmaksu stāstu. Pie ražošanas paralēlās izpildes (C=32), G7e sasniedza pārsteidzošus 0,79 ASV dolārus par miljonu izvades marķieru. Tas ir 2,6 reizes izmaksu samazinājums salīdzinājumā ar G6e 2,06 ASV dolāriem, ko veicināja G7e zemākā stundas likme un spēja uzturēt konsekventu caurlaides spēju zem slodzes, pierādot, ka augsta veiktspēja nav jānodrošina par paaugstinātu cenu.
Izmaksu ziņā efektīvu ģeneratīvā AI secinājumu nākotne
G7e instanču ieviešana pakalpojumā Amazon SageMaker AI ir vairāk nekā tikai pakāpenisks jauninājums; tas ir AWS stratēģisks solis, lai demokratizētu piekļuvi augstas veiktspējas ģeneratīvajam AI. Apvienojot NVIDIA RTX PRO 6000 Blackwell GPU neapstrādāto jaudu ar SageMaker mērogojamības un pārvaldības iespējām, AWS dod iespēju visu izmēru organizācijām izvietot lielākus, sarežģītākus AI modeļus ar nepieredzētu efektivitāti un izmaksu lietderību. Šī attīstība nodrošina, ka ģeneratīvā AI sasniegumus var pārvērst praktiskās, ražošanai gatavās lietojumprogrammās plašā nozaru spektrā, nostiprinot SageMaker AI pozīciju kā vadošajai AI inovāciju platformai.
Sākotnējais avots
https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/Bieži uzdotie jautājumi
What are G7e instances and how do they benefit generative AI inference?
Which NVIDIA GPU powers the new G7e instances, and what are its key features?
How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?
What types of generative AI workloads are best suited for deployment on G7e instances?
What is the cost efficiency of G7e instances compared to G6e for generative AI inference?
What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?
What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?
Esiet informēti
Saņemiet jaunākās AI ziņas savā e-pastā.
