Inferència d'IA Generativa: Acceleració amb instàncies G7e a SageMaker

title: "Inferència d'IA Generativa: Acceleració amb instàncies G7e a SageMaker" slug: "accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances" date: "2026-04-21" lang: "ca" source: "https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/" category: "IA Empresarial" keywords:

IA Generativa
Inferència d'IA
Amazon SageMaker
Instàncies AWS G7e
NVIDIA RTX PRO 6000
Desplegament d'LLM
IA de cost efectiu
Memòria de GPU
Blackwell
vLLM
Models Fundacionals
Fluxos de Treball Agentics meta_description: "Accelera la inferència d'IA generativa a Amazon SageMaker AI amb les noves instàncies G7e, impulsades per GPU NVIDIA RTX PRO 6000 Blackwell, oferint 2,3 vegades el rendiment i estalvi de costos." image: "/images/articles/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances.png" image_alt: "Instàncies Amazon SageMaker AI G7e accelerant la inferència d'IA generativa amb GPU NVIDIA RTX PRO 6000 Blackwell." quality_score: 94 content_score: 93 seo_score: 95 companies:
AWS schema_type: "NewsArticle" reading_time: 4 faq:
question: "Què són les instàncies G7e i com beneficien la inferència d'IA generativa?" answer: "Les instàncies G7e són l'última generació d'instàncies de computació accelerada per GPU disponibles a Amazon SageMaker AI, dissenyades específicament per accelerar les càrregues de treball d'inferència d'IA generativa. Estan impulsades per GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, oferint avenços significatius en la capacitat de memòria, l'ample de banda i el rendiment general de la inferència. Per a la IA generativa, les instàncies G7e signifiquen un Temps fins al Primer Token (TTFT) més ràpid, un major rendiment i la capacitat d'allotjar models fundacionals (FM) molt més grans dins d'una sola instància, o fins i tot en una sola GPU. Això es tradueix en aplicacions d'IA més responsives, complexitat operativa reduïda i estalvis substancials de costos per al desplegament i execució de models de llenguatge grans (LLM), IA multimodal i fluxos de treball agentics. Les seves capacitats millorades les fan ideals per a aplicacions interactives que requereixen inferència d'alt rendiment i cost efectiu."
question: "Quina GPU NVIDIA impulsa les noves instàncies G7e i quines són les seves característiques clau?" answer: "Les noves instàncies G7e a Amazon SageMaker AI estan impulsades per les GPU NVIDIA RTX PRO 6000 Blackwell Server Edition. Cadascuna d'aquestes GPU d'avantguarda proporciona una impressionant memòria GDDR7 de 96 GB, que és el doble de la capacitat de memòria per GPU en comparació amb les instàncies G6e anteriors. Les característiques clau també inclouen 1.597 GB/s d'ample de banda de memòria GPU per GPU, suport per a precisió FP4 mitjançant Tensor Cores de cinquena generació i NVIDIA GPUDirect RDMA sobre EFAv4. Aquestes característiques contribueixen col·lectivament al rendiment superior d'inferència de les instàncies G7e, la densitat de memòria i la xarxa de baixa latència, fent-les excepcionalment capaces per a tasques d'IA generativa exigents."
question: "Com es comparen les instàncies G7e amb les generacions anteriors (G6e, G5) en termes de rendiment i memòria?" answer: "Les instàncies G7e demostren un salt generacional significatiu respecte a les G6e i G5. Ofereixen fins a 2,3 vegades el rendiment d'inferència en comparació amb les instàncies G6e. En termes de memòria, cada GPU G7e ofereix 96 GB de memòria GDDR7, duplicant efectivament la memòria per GPU de les G6e i quadruplicant la de les G5. Una instància G7e.48xlarge de gamma alta proporciona un total agregat de 768 GB de memòria GPU. A més, l'ample de banda de xarxa escala fins a 1.600 Gbps amb EFA en la mida G7e més gran, un salt de 4x respecte a les G6e i de 16x respecte a les G5. Aquesta vasta millora en memòria, ample de banda i xarxa permet a les instàncies G7e allotjar models que anteriorment requerien configuracions multinode en instàncies més antigues, simplificant el desplegament i reduint la latència."
question: "Quins tipus de càrregues de treball d'IA generativa són les més adequades per al desplegament en instàncies G7e?" answer: "Les instàncies G7e són excepcionalment adequades per a una àmplia gamma de càrregues de treball d'IA generativa modernes a causa de la seva alta densitat de memòria, ample de banda i xarxa avançada. Aquestes inclouen: Chatbots i IA Conversacional, garantint un baix Temps fins al Primer Token (TTFT) i un alt rendiment per a experiències interactives responsives; Fluxos de Treball Agentics i de Crida a Eines, beneficiant-se d'una millora de 4x en l'ample de banda de CPU a GPU per a una injecció ràpida de context en pipelines RAG; Generació de Text, Resum i Inferència de Context Llarg, acomodant grans cachés KV per a contextos de documents extensos amb 96 GB de memòria per GPU; Generació d'Imatges i Models de Visió, superant errors de memòria insuficient per a models multimodals més grans que tenien problemes en instàncies anteriors; i IA Física i Computació Científica, aprofitant la computació de generació Blackwell, el suport FP4 i les capacitats de computació espacial per a bessons digitals i simulació 3D."
question: "Quina és l'eficiència de costos de les instàncies G7e en comparació amb les G6e per a la inferència d'IA generativa?" answer: "Les instàncies G7e ofereixen una eficiència de costos significativament millorada per a la inferència d'IA generativa en comparació amb les instàncies G6e. Els benchmarks que desplegaven Qwen3-32B van mostrar que les G7e van assolir 0,79 $ per milió de tokens de sortida amb concurrència de producció (C=32). Això representa una notable reducció de costos de 2,6x en comparació amb els 2,06 $ per milió de tokens de sortida de les G6e per a una càrrega de treball similar. Aquest estalvi de costos es deu principalment a la tarifa horària substancialment inferior de les G7e (per exemple, 4,20 $/hora per a ml.g7e.2xlarge versus 13,12 $/hora per a ml.g6e.12xlarge) combinada amb la seva capacitat de mantenir un rendiment consistent i alt sota càrrega, convertint-les en una opció més econòmica per a desplegaments a gran escala."
question: "Quines són les capacitats de memòria per desplegar LLM en instàncies G7e d'una sola i múltiples GPU?" answer: "Les instàncies G7e ofereixen capacitats de memòria substancials per desplegar models de llenguatge grans (LLM). Una GPU de node únic, específicament una instància G7e.2xlarge, pot allotjar models fundacionals amb fins a 35 mil milions de paràmetres en precisió FP16. Per a models més grans, l'escalada a través de múltiples GPU dins d'una sola instància augmenta dràsticament la capacitat: un node de 4 GPU (G7e.24xlarge) pot desplegar models de fins a 150 mil milions de paràmetres, mentre que un node de 8 GPU (G7e.48xlarge) pot gestionar models tan grans com 300 mil milions de paràmetres. Aquesta impressionant escalabilitat proporciona a les organitzacions la flexibilitat per desplegar una àmplia gamma d'LLM sense les complexitats de configuracions distribuïdes de múltiples instàncies."
question: "Quins són els requisits previs per desplegar solucions utilitzant instàncies G7e a Amazon SageMaker AI?" answer: "Per desplegar solucions d'IA generativa utilitzant instàncies G7e a Amazon SageMaker AI, cal complir diversos requisits previs. Necessiteu un compte AWS actiu per allotjar els vostres recursos i un rol d'AWS Identity and Access Management (IAM) configurat amb els permisos adequats per accedir als serveis d'Amazon SageMaker AI. Per al desenvolupament i el desplegament, es recomana accedir a Amazon SageMaker Studio o a una instància de notebook de SageMaker, tot i que altres entorns de desenvolupament interactius com PyCharm o Visual Studio Code també són viables. Crucialment, heu de sol·licitar una quota per a almenys una instància ml.g7e.2xlarge (o un tipus d'instància G7e més gran) per a l'ús de l'endpoint d'Amazon SageMaker AI a través de la consola de Quotas de Servei d'AWS, ja que es tracta de tipus d'instància nous i especialitzats."

Instàncies G7e: Una Nova Era per a la Inferència d'IA a SageMaker

El panorama de la IA generativa està evolucionant a un ritme sense precedents, impulsant una demanda contínua d'infraestructura més potent, flexible i de cost efectiu. Avui, Code Velocity es complau d'informar sobre un avenç significatiu d'AWS: la disponibilitat general de les instàncies G7e a Amazon SageMaker AI. Impulsades per GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, aquestes noves instàncies estan destinades a redefinir els punts de referència per a la inferència d'IA generativa, oferint als desenvolupadors i empreses un rendiment i una capacitat de memòria inigualables.

Amazon SageMaker AI és un servei totalment gestionat que proporciona als desenvolupadors i científics de dades les eines per construir, entrenar i desplegar models d'aprenentatge automàtic a escala. La introducció de les instàncies G7e marca un moment crucial per a les càrregues de treball d'IA generativa en aquesta plataforma. Aquestes instàncies aprofiten les GPU NVIDIA RTX PRO 6000 Blackwell d'avantguarda, cadascuna amb una impressionant memòria GDDR7 de 96 GB. Aquest augment substancial de memòria permet el desplegament de models fundacionals (FM) significativament més grans directament a SageMaker AI, abordant una necessitat crítica per a les aplicacions d'IA avançades.

Les organitzacions ara poden desplegar models com GPT-OSS-120B, Nemotron-3-Super-120B-A12B (variant NVFP4) i Qwen3.5-35B-A3B amb una eficiència notable. La instància G7e.2xlarge, amb una sola GPU, pot allotjar models de 35B paràmetres, mentre que la G7e.48xlarge, amb vuit GPU, escala fins a models de 300B paràmetres. Aquesta flexibilitat es tradueix en beneficis tangibles: complexitat operativa reduïda, menor latència i estalvis substancials de costos per a les càrregues de treball d'inferència.

Descobrint el Salt Generacional de Rendiment de les G7e

Les instàncies G7e representen un salt monumental respecte als seus predecessors, G6e i G5, oferint fins a 2,3 vegades el rendiment d'inferència més ràpid en comparació amb les G6e. Les especificacions tècniques subratllen aquest avenç generacional. Cada GPU G7e proporciona un sorprenent ample de banda de 1.597 GB/s, duplicant efectivament la memòria per GPU de les G6e i quadruplicant la de les G5. A més, les capacitats de xarxa es milloren dràsticament, escalant fins a 1.600 Gbps amb EFA en la mida G7e més gran. Aquest augment de 4x respecte a les G6e i de 16x respecte a les G5 desbloqueja el potencial per a inferència multinode de baixa latència i escenaris de afinació fina prèviament considerats poc pràctics.

Aquí teniu una comparació que destaca la progressió entre generacions en el nivell de 8 GPU:

Especificació	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
Memòria GPU per GPU	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
Memòria GPU total	192 GB	384 GB	768 GB
Ample de banda de memòria GPU	600 GB/s per GPU	864 GB/s per GPU	1.597 GB/s per GPU
vCPUs	192	192	192
Memòria del sistema	768 GiB	1.536 GiB	2.048 GiB
Ample de banda de xarxa	100 Gbps	400 Gbps	1.600 Gbps (EFA)
Emmagatzematge NVMe local	7,6 TB	7,6 TB	15,2 TB
Inferència vs. G6e	Línia base	~1x	Fins a 2,3x

Amb una colossal memòria GPU agregada de 768 GB en una sola instància G7e, els models que abans necessitaven configuracions multinode complexes en instàncies més antigues ara es poden desplegar amb una simplicitat notable. Això redueix significativament la latència entre nodes i la sobrecàrrega operativa. Juntament amb el suport per a la precisió FP4 mitjançant Tensor Cores de cinquena generació i NVIDIA GPUDirect RDMA sobre EFAv4, les instàncies G7e estan dissenyades inequívocament per a LLM exigents, IA multimodal i fluxos de treball d'inferència agentics sofisticats a AWS.

Diversos Casos d'Ús d'IA Generativa prosperen a les G7e

La robusta combinació de densitat de memòria, ample de banda i capacitats de xarxa avançades fa que les instàncies G7e siguin ideals per a un ampli espectre de càrregues de treball d'IA generativa contemporànies. Des de la millora de la IA conversacional fins a la potenciació de simulacions físiques complexes, les G7e ofereixen avantatges tangibles:

Chatbots i IA Conversacional: El baix Temps fins al Primer Token (TTFT) i l'alt rendiment de les instàncies G7e garanteixen experiències interactives responsives i fluides, fins i tot davant de càrregues d'usuaris concurrents elevades. Això és crucial per mantenir la implicació i la satisfacció de l'usuari en les interaccions d'IA en temps real.
Fluxos de Treball Agentics i de Crida a Eines: Per a les pipelines de Generació Augmentada per Recuperació (RAG) i els sistemes agentics, la injecció ràpida de context des dels magatzems de recuperació és primordial. La millora de 4x en l'ample de banda de CPU a GPU dins de les instàncies G7e les fa excepcionalment efectives per a aquestes operacions crítiques, permetent agents d'IA més intel·ligents i dinàmics.
Generació de Text, Resum i Inferència de Context Llarg: Amb 96 GB de memòria per GPU, les instàncies G7e gestionen amb destresa grans cachés Key-Value (KV). Això permet contextos de documents extensos, reduint significativament la necessitat de truncament de text i facilitant un raonament més ric i matisat sobre grans entrades.
Generació d'Imatges i Models de Visió: On les instàncies de generació anterior sovint trobaven errors de memòria insuficient amb models multimodals més grans, la capacitat de memòria duplicada de les G7e resol amb elegància aquestes limitacions, obrint el camí per a aplicacions d'IA d'imatge i visió més sofisticades i d'alta resolució.
IA Física i Computació Científica: Més enllà de la IA generativa tradicional, la computació de generació Blackwell de les G7e, el suport FP4 i les capacitats de computació espacial (incloent DLSS 4.0 i nuclis RT de 4a generació) estenen la seva utilitat a bessons digitals, simulació 3D i inferència avançada de models d'IA física, obrint noves fronteres en la investigació científica i les aplicacions industrials.

Desplegament Optimitzat i Avaluació del Rendiment

El desplegament de models d'IA generativa en instàncies G7e mitjançant Amazon SageMaker AI està dissenyat per ser senzill. Els usuaris poden accedir a un notebook d'exemple aquí que simplifica el procés. Els requisits previs solen incloure un compte d'AWS, un rol d'IAM per a l'accés a SageMaker i bé Amazon SageMaker Studio o una instància de notebook de SageMaker per a l'entorn de desenvolupament. És important destacar que els usuaris han de sol·licitar una quota adequada per a ml.g7e.2xlarge o instàncies més grans per a l'ús de l'endpoint d'AI de SageMaker a través de la consola de Quotas de Servei.

Per demostrar els guanys significatius de rendiment, AWS va realitzar proves de referència amb Qwen3-32B (BF16) tant en instàncies G6e com G7e. La càrrega de treball implicava aproximadament 1.000 tokens d'entrada i 560 tokens de sortida per sol·licitud, imitant tasques comunes de resum de documents. Ambdues configuracions van utilitzar el contenidor natiu vLLM amb l'emmagatzematge en memòria cau de prefixos habilitat, garantint una comparació justa.

Els resultats són convincents. Mentre que la línia base G6e (ml.g6e.12xlarge amb 4x GPU L40S a 13,12 $/hora) va mostrar un alt rendiment per sol·licitud, la G7e (ml.g7e.2xlarge amb 1x RTX PRO 6000 Blackwell a 4,20 $/hora) explica una història de costos dràsticament diferent. Amb una concurrència de producció (C=32), la G7e va assolir uns sorprenents 0,79 $ per milió de tokens de sortida. Això representa una reducció de costos de 2,6x en comparació amb els 2,06 $ de la G6e, impulsada per la tarifa horària més baixa de la G7e i la seva capacitat de mantenir un rendiment consistent sota càrrega, demostrant que l'alt rendiment no ha de tenir un cost premium.

El Futur de la Inferència d'IA Generativa de Cost Efectiu

La introducció de les instàncies G7e a Amazon SageMaker AI és més que una simple actualització incremental; és un moviment estratègic d'AWS per democratitzar l'accés a la IA generativa d'alt rendiment. Combinant la potència bruta de les GPU NVIDIA RTX PRO 6000 Blackwell amb les capacitats d'escalabilitat i gestió de SageMaker, AWS està empoderant organitzacions de totes les mides per desplegar models d'IA més grans i complexos amb una eficiència i rendibilitat sense precedents. Aquest desenvolupament assegura que els avenços en la IA generativa es puguin traduir en aplicacions pràctiques i llestes per a producció en una àmplia gamma d'indústries, consolidant la posició de SageMaker AI com a plataforma líder per a la innovació en IA.

Font original

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Preguntes freqüents

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Manteniu-vos al dia

Rebeu les últimes notícies d'IA al correu.