title: "Inferència d'IA Generativa: Acceleració amb instàncies G7e a SageMaker" slug: "accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances" date: "2026-04-21" lang: "ca" source: "https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/" category: "IA Empresarial" keywords:
- IA Generativa
- Inferència d'IA
- Amazon SageMaker
- Instàncies AWS G7e
- NVIDIA RTX PRO 6000
- Desplegament d'LLM
- IA de cost efectiu
- Memòria de GPU
- Blackwell
- vLLM
- Models Fundacionals
- Fluxos de Treball Agentics meta_description: "Accelera la inferència d'IA generativa a Amazon SageMaker AI amb les noves instàncies G7e, impulsades per GPU NVIDIA RTX PRO 6000 Blackwell, oferint 2,3 vegades el rendiment i estalvi de costos." image: "/images/articles/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances.png" image_alt: "Instàncies Amazon SageMaker AI G7e accelerant la inferència d'IA generativa amb GPU NVIDIA RTX PRO 6000 Blackwell." quality_score: 94 content_score: 93 seo_score: 95 companies:
- AWS schema_type: "NewsArticle" reading_time: 4 faq:
- question: "Què són les instàncies G7e i com beneficien la inferència d'IA generativa?" answer: "Les instàncies G7e són l'última generació d'instàncies de computació accelerada per GPU disponibles a Amazon SageMaker AI, dissenyades específicament per accelerar les càrregues de treball d'inferència d'IA generativa. Estan impulsades per GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, oferint avenços significatius en la capacitat de memòria, l'ample de banda i el rendiment general de la inferència. Per a la IA generativa, les instàncies G7e signifiquen un Temps fins al Primer Token (TTFT) més ràpid, un major rendiment i la capacitat d'allotjar models fundacionals (FM) molt més grans dins d'una sola instància, o fins i tot en una sola GPU. Això es tradueix en aplicacions d'IA més responsives, complexitat operativa reduïda i estalvis substancials de costos per al desplegament i execució de models de llenguatge grans (LLM), IA multimodal i fluxos de treball agentics. Les seves capacitats millorades les fan ideals per a aplicacions interactives que requereixen inferència d'alt rendiment i cost efectiu."
- question: "Quina GPU NVIDIA impulsa les noves instàncies G7e i quines són les seves característiques clau?" answer: "Les noves instàncies G7e a Amazon SageMaker AI estan impulsades per les GPU NVIDIA RTX PRO 6000 Blackwell Server Edition. Cadascuna d'aquestes GPU d'avantguarda proporciona una impressionant memòria GDDR7 de 96 GB, que és el doble de la capacitat de memòria per GPU en comparació amb les instàncies G6e anteriors. Les característiques clau també inclouen 1.597 GB/s d'ample de banda de memòria GPU per GPU, suport per a precisió FP4 mitjançant Tensor Cores de cinquena generació i NVIDIA GPUDirect RDMA sobre EFAv4. Aquestes característiques contribueixen col·lectivament al rendiment superior d'inferència de les instàncies G7e, la densitat de memòria i la xarxa de baixa latència, fent-les excepcionalment capaces per a tasques d'IA generativa exigents."
- question: "Com es comparen les instàncies G7e amb les generacions anteriors (G6e, G5) en termes de rendiment i memòria?" answer: "Les instàncies G7e demostren un salt generacional significatiu respecte a les G6e i G5. Ofereixen fins a 2,3 vegades el rendiment d'inferència en comparació amb les instàncies G6e. En termes de memòria, cada GPU G7e ofereix 96 GB de memòria GDDR7, duplicant efectivament la memòria per GPU de les G6e i quadruplicant la de les G5. Una instància G7e.48xlarge de gamma alta proporciona un total agregat de 768 GB de memòria GPU. A més, l'ample de banda de xarxa escala fins a 1.600 Gbps amb EFA en la mida G7e més gran, un salt de 4x respecte a les G6e i de 16x respecte a les G5. Aquesta vasta millora en memòria, ample de banda i xarxa permet a les instàncies G7e allotjar models que anteriorment requerien configuracions multinode en instàncies més antigues, simplificant el desplegament i reduint la latència."
- question: "Quins tipus de càrregues de treball d'IA generativa són les més adequades per al desplegament en instàncies G7e?" answer: "Les instàncies G7e són excepcionalment adequades per a una àmplia gamma de càrregues de treball d'IA generativa modernes a causa de la seva alta densitat de memòria, ample de banda i xarxa avançada. Aquestes inclouen: Chatbots i IA Conversacional, garantint un baix Temps fins al Primer Token (TTFT) i un alt rendiment per a experiències interactives responsives; Fluxos de Treball Agentics i de Crida a Eines, beneficiant-se d'una millora de 4x en l'ample de banda de CPU a GPU per a una injecció ràpida de context en pipelines RAG; Generació de Text, Resum i Inferència de Context Llarg, acomodant grans cachés KV per a contextos de documents extensos amb 96 GB de memòria per GPU; Generació d'Imatges i Models de Visió, superant errors de memòria insuficient per a models multimodals més grans que tenien problemes en instàncies anteriors; i IA Física i Computació Científica, aprofitant la computació de generació Blackwell, el suport FP4 i les capacitats de computació espacial per a bessons digitals i simulació 3D."
- question: "Quina és l'eficiència de costos de les instàncies G7e en comparació amb les G6e per a la inferència d'IA generativa?" answer: "Les instàncies G7e ofereixen una eficiència de costos significativament millorada per a la inferència d'IA generativa en comparació amb les instàncies G6e. Els benchmarks que desplegaven Qwen3-32B van mostrar que les G7e van assolir 0,79 $ per milió de tokens de sortida amb concurrència de producció (C=32). Això representa una notable reducció de costos de 2,6x en comparació amb els 2,06 $ per milió de tokens de sortida de les G6e per a una càrrega de treball similar. Aquest estalvi de costos es deu principalment a la tarifa horària substancialment inferior de les G7e (per exemple, 4,20 $/hora per a ml.g7e.2xlarge versus 13,12 $/hora per a ml.g6e.12xlarge) combinada amb la seva capacitat de mantenir un rendiment consistent i alt sota càrrega, convertint-les en una opció més econòmica per a desplegaments a gran escala."
- question: "Quines són les capacitats de memòria per desplegar LLM en instàncies G7e d'una sola i múltiples GPU?" answer: "Les instàncies G7e ofereixen capacitats de memòria substancials per desplegar models de llenguatge grans (LLM). Una GPU de node únic, específicament una instància G7e.2xlarge, pot allotjar models fundacionals amb fins a 35 mil milions de paràmetres en precisió FP16. Per a models més grans, l'escalada a través de múltiples GPU dins d'una sola instància augmenta dràsticament la capacitat: un node de 4 GPU (G7e.24xlarge) pot desplegar models de fins a 150 mil milions de paràmetres, mentre que un node de 8 GPU (G7e.48xlarge) pot gestionar models tan grans com 300 mil milions de paràmetres. Aquesta impressionant escalabilitat proporciona a les organitzacions la flexibilitat per desplegar una àmplia gamma d'LLM sense les complexitats de configuracions distribuïdes de múltiples instàncies."
- question: "Quins són els requisits previs per desplegar solucions utilitzant instàncies G7e a Amazon SageMaker AI?"
answer: "Per desplegar solucions d'IA generativa utilitzant instàncies G7e a Amazon SageMaker AI, cal complir diversos requisits previs. Necessiteu un compte AWS actiu per allotjar els vostres recursos i un rol d'AWS Identity and Access Management (IAM) configurat amb els permisos adequats per accedir als serveis d'Amazon SageMaker AI. Per al desenvolupament i el desplegament, es recomana accedir a Amazon SageMaker Studio o a una instància de notebook de SageMaker, tot i que altres entorns de desenvolupament interactius com PyCharm o Visual Studio Code també són viables. Crucialment, heu de sol·licitar una quota per a almenys una instància
ml.g7e.2xlarge(o un tipus d'instància G7e més gran) per a l'ús de l'endpoint d'Amazon SageMaker AI a través de la consola de Quotas de Servei d'AWS, ja que es tracta de tipus d'instància nous i especialitzats."
Instàncies G7e: Una Nova Era per a la Inferència d'IA a SageMaker
El panorama de la IA generativa està evolucionant a un ritme sense precedents, impulsant una demanda contínua d'infraestructura més potent, flexible i de cost efectiu. Avui, Code Velocity es complau d'informar sobre un avenç significatiu d'AWS: la disponibilitat general de les instàncies G7e a Amazon SageMaker AI. Impulsades per GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, aquestes noves instàncies estan destinades a redefinir els punts de referència per a la inferència d'IA generativa, oferint als desenvolupadors i empreses un rendiment i una capacitat de memòria inigualables.
Amazon SageMaker AI és un servei totalment gestionat que proporciona als desenvolupadors i científics de dades les eines per construir, entrenar i desplegar models d'aprenentatge automàtic a escala. La introducció de les instàncies G7e marca un moment crucial per a les càrregues de treball d'IA generativa en aquesta plataforma. Aquestes instàncies aprofiten les GPU NVIDIA RTX PRO 6000 Blackwell d'avantguarda, cadascuna amb una impressionant memòria GDDR7 de 96 GB. Aquest augment substancial de memòria permet el desplegament de models fundacionals (FM) significativament més grans directament a SageMaker AI, abordant una necessitat crítica per a les aplicacions d'IA avançades.
Les organitzacions ara poden desplegar models com GPT-OSS-120B, Nemotron-3-Super-120B-A12B (variant NVFP4) i Qwen3.5-35B-A3B amb una eficiència notable. La instància G7e.2xlarge, amb una sola GPU, pot allotjar models de 35B paràmetres, mentre que la G7e.48xlarge, amb vuit GPU, escala fins a models de 300B paràmetres. Aquesta flexibilitat es tradueix en beneficis tangibles: complexitat operativa reduïda, menor latència i estalvis substancials de costos per a les càrregues de treball d'inferència.
Descobrint el Salt Generacional de Rendiment de les G7e
Les instàncies G7e representen un salt monumental respecte als seus predecessors, G6e i G5, oferint fins a 2,3 vegades el rendiment d'inferència més ràpid en comparació amb les G6e. Les especificacions tècniques subratllen aquest avenç generacional. Cada GPU G7e proporciona un sorprenent ample de banda de 1.597 GB/s, duplicant efectivament la memòria per GPU de les G6e i quadruplicant la de les G5. A més, les capacitats de xarxa es milloren dràsticament, escalant fins a 1.600 Gbps amb EFA en la mida G7e més gran. Aquest augment de 4x respecte a les G6e i de 16x respecte a les G5 desbloqueja el potencial per a inferència multinode de baixa latència i escenaris de afinació fina prèviament considerats poc pràctics.
Aquí teniu una comparació que destaca la progressió entre generacions en el nivell de 8 GPU:
| Especificació | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
|---|---|---|---|
| GPU | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| Memòria GPU per GPU | 24 GB GDDR6 | 48 GB GDDR6 | 96 GB GDDR7 |
| Memòria GPU total | 192 GB | 384 GB | 768 GB |
| Ample de banda de memòria GPU | 600 GB/s per GPU | 864 GB/s per GPU | 1.597 GB/s per GPU |
| vCPUs | 192 | 192 | 192 |
| Memòria del sistema | 768 GiB | 1.536 GiB | 2.048 GiB |
| Ample de banda de xarxa | 100 Gbps | 400 Gbps | 1.600 Gbps (EFA) |
| Emmagatzematge NVMe local | 7,6 TB | 7,6 TB | 15,2 TB |
| Inferència vs. G6e | Línia base | ~1x | Fins a 2,3x |
Amb una colossal memòria GPU agregada de 768 GB en una sola instància G7e, els models que abans necessitaven configuracions multinode complexes en instàncies més antigues ara es poden desplegar amb una simplicitat notable. Això redueix significativament la latència entre nodes i la sobrecàrrega operativa. Juntament amb el suport per a la precisió FP4 mitjançant Tensor Cores de cinquena generació i NVIDIA GPUDirect RDMA sobre EFAv4, les instàncies G7e estan dissenyades inequívocament per a LLM exigents, IA multimodal i fluxos de treball d'inferència agentics sofisticats a AWS.
Diversos Casos d'Ús d'IA Generativa prosperen a les G7e
La robusta combinació de densitat de memòria, ample de banda i capacitats de xarxa avançades fa que les instàncies G7e siguin ideals per a un ampli espectre de càrregues de treball d'IA generativa contemporànies. Des de la millora de la IA conversacional fins a la potenciació de simulacions físiques complexes, les G7e ofereixen avantatges tangibles:
- Chatbots i IA Conversacional: El baix Temps fins al Primer Token (TTFT) i l'alt rendiment de les instàncies G7e garanteixen experiències interactives responsives i fluides, fins i tot davant de càrregues d'usuaris concurrents elevades. Això és crucial per mantenir la implicació i la satisfacció de l'usuari en les interaccions d'IA en temps real.
- Fluxos de Treball Agentics i de Crida a Eines: Per a les pipelines de Generació Augmentada per Recuperació (RAG) i els sistemes agentics, la injecció ràpida de context des dels magatzems de recuperació és primordial. La millora de 4x en l'ample de banda de CPU a GPU dins de les instàncies G7e les fa excepcionalment efectives per a aquestes operacions crítiques, permetent agents d'IA més intel·ligents i dinàmics.
- Generació de Text, Resum i Inferència de Context Llarg: Amb 96 GB de memòria per GPU, les instàncies G7e gestionen amb destresa grans cachés Key-Value (KV). Això permet contextos de documents extensos, reduint significativament la necessitat de truncament de text i facilitant un raonament més ric i matisat sobre grans entrades.
- Generació d'Imatges i Models de Visió: On les instàncies de generació anterior sovint trobaven errors de memòria insuficient amb models multimodals més grans, la capacitat de memòria duplicada de les G7e resol amb elegància aquestes limitacions, obrint el camí per a aplicacions d'IA d'imatge i visió més sofisticades i d'alta resolució.
- IA Física i Computació Científica: Més enllà de la IA generativa tradicional, la computació de generació Blackwell de les G7e, el suport FP4 i les capacitats de computació espacial (incloent DLSS 4.0 i nuclis RT de 4a generació) estenen la seva utilitat a bessons digitals, simulació 3D i inferència avançada de models d'IA física, obrint noves fronteres en la investigació científica i les aplicacions industrials.
Desplegament Optimitzat i Avaluació del Rendiment
El desplegament de models d'IA generativa en instàncies G7e mitjançant Amazon SageMaker AI està dissenyat per ser senzill. Els usuaris poden accedir a un notebook d'exemple aquí que simplifica el procés. Els requisits previs solen incloure un compte d'AWS, un rol d'IAM per a l'accés a SageMaker i bé Amazon SageMaker Studio o una instància de notebook de SageMaker per a l'entorn de desenvolupament. És important destacar que els usuaris han de sol·licitar una quota adequada per a ml.g7e.2xlarge o instàncies més grans per a l'ús de l'endpoint d'AI de SageMaker a través de la consola de Quotas de Servei.
Per demostrar els guanys significatius de rendiment, AWS va realitzar proves de referència amb Qwen3-32B (BF16) tant en instàncies G6e com G7e. La càrrega de treball implicava aproximadament 1.000 tokens d'entrada i 560 tokens de sortida per sol·licitud, imitant tasques comunes de resum de documents. Ambdues configuracions van utilitzar el contenidor natiu vLLM amb l'emmagatzematge en memòria cau de prefixos habilitat, garantint una comparació justa.
Els resultats són convincents. Mentre que la línia base G6e (ml.g6e.12xlarge amb 4x GPU L40S a 13,12 $/hora) va mostrar un alt rendiment per sol·licitud, la G7e (ml.g7e.2xlarge amb 1x RTX PRO 6000 Blackwell a 4,20 $/hora) explica una història de costos dràsticament diferent. Amb una concurrència de producció (C=32), la G7e va assolir uns sorprenents 0,79 $ per milió de tokens de sortida. Això representa una reducció de costos de 2,6x en comparació amb els 2,06 $ de la G6e, impulsada per la tarifa horària més baixa de la G7e i la seva capacitat de mantenir un rendiment consistent sota càrrega, demostrant que l'alt rendiment no ha de tenir un cost premium.
El Futur de la Inferència d'IA Generativa de Cost Efectiu
La introducció de les instàncies G7e a Amazon SageMaker AI és més que una simple actualització incremental; és un moviment estratègic d'AWS per democratitzar l'accés a la IA generativa d'alt rendiment. Combinant la potència bruta de les GPU NVIDIA RTX PRO 6000 Blackwell amb les capacitats d'escalabilitat i gestió de SageMaker, AWS està empoderant organitzacions de totes les mides per desplegar models d'IA més grans i complexos amb una eficiència i rendibilitat sense precedents. Aquest desenvolupament assegura que els avenços en la IA generativa es puguin traduir en aplicacions pràctiques i llestes per a producció en una àmplia gamma d'indústries, consolidant la posició de SageMaker AI com a plataforma líder per a la innovació en IA.
Preguntes freqüents
What are G7e instances and how do they benefit generative AI inference?
Which NVIDIA GPU powers the new G7e instances, and what are its key features?
How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?
What types of generative AI workloads are best suited for deployment on G7e instances?
What is the cost efficiency of G7e instances compared to G6e for generative AI inference?
What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?
What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?
Manteniu-vos al dia
Rebeu les últimes notícies d'IA al correu.
