Συμπερασματολογία Παραγωγικής Τεχνητής Νοημοσύνης: Επιτάχυνση στο SageMaker με τις εκδόσεις G7e

Εκδόσεις G7e: Μια Νέα Εποχή για τη Συμπερασματολογία Τεχνητής Νοημοσύνης στο SageMaker

Το τοπίο της παραγωγικής τεχνητής νοημοσύνης εξελίσσεται με πρωτοφανή ρυθμό, οδηγώντας σε συνεχή ζήτηση για πιο ισχυρή, ευέλικτη και οικονομικά αποδοτική υποδομή. Σήμερα, η Code Velocity είναι ενθουσιασμένη να αναφέρει μια σημαντική πρόοδο από την AWS: την γενική διαθεσιμότητα των εκδόσεων G7e στο Amazon SageMaker AI. Με την υποστήριξη των GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, αυτές οι νέες εκδόσεις είναι έτοιμες να επαναπροσδιορίσουν τα κριτήρια αναφοράς για τη συμπερασματολογία παραγωγικής τεχνητής νοημοσύνης, προσφέροντας στους προγραμματιστές και τις επιχειρήσεις απαράμιλλη απόδοση και χωρητικότητα μνήμης.

Το Amazon SageMaker AI είναι μια πλήρως διαχειριζόμενη υπηρεσία που παρέχει στους προγραμματιστές και τους επιστήμονες δεδομένων τα εργαλεία για τη δημιουργία, την εκπαίδευση και την ανάπτυξη μοντέλων μηχανικής μάθησης σε κλίμακα. Η εισαγωγή των εκδόσεων G7e σηματοδοτεί μια κομβική στιγμή για τους φόρτους εργασίας παραγωγικής τεχνητής νοημοσύνης σε αυτήν την πλατφόρμα. Αυτές οι εκδόσεις αξιοποιούν τις κορυφαίες GPU NVIDIA RTX PRO 6000 Blackwell, κάθε μία από τις οποίες διαθέτει μια εντυπωσιακή μνήμη GDDR7 96 GB. Αυτή η σημαντική αύξηση της μνήμης επιτρέπει την ανάπτυξη σημαντικά μεγαλύτερων βασικών μοντέλων (FMs) απευθείας στο SageMaker AI, καλύπτοντας μια κρίσιμη ανάγκη για προηγμένες εφαρμογές τεχνητής νοημοσύνης.

Οι οργανισμοί μπορούν πλέον να αναπτύξουν μοντέλα όπως το GPT-OSS-120B, το Nemotron-3-Super-120B-A12B (παραλλαγή NVFP4) και το Qwen3.5-35B-A3B με αξιοσημείωτη απόδοση. Η έκδοση G7e.2xlarge, με μία μόνο GPU, μπορεί να φιλοξενήσει μοντέλα 35B παραμέτρων, ενώ η G7e.48xlarge, με οκτώ GPU, κλιμακώνεται έως μοντέλα 300B παραμέτρων. Αυτή η ευελιξία μεταφράζεται σε απτά οφέλη: μειωμένη λειτουργική πολυπλοκότητα, χαμηλότερη καθυστέρηση και σημαντική εξοικονόμηση κόστους για φόρτους εργασίας συμπερασματολογίας.

Αποκαλύπτοντας το Γενεακό Άλμα Απόδοσης των G7e

Οι εκδόσεις G7e αντιπροσωπεύουν ένα μνημειώδες άλμα έναντι των προκατόχων τους, G6e και G5, προσφέροντας έως και 2,3 φορές ταχύτερη απόδοση συμπερασματολογίας σε σύγκριση με τις G6e. Οι τεχνικές προδιαγραφές υπογραμμίζουν αυτήν την γενεακή πρόοδο. Κάθε GPU G7e παρέχει ένα εκπληκτικό εύρος ζώνης 1.597 GB/s, διπλασιάζοντας ουσιαστικά τη μνήμη ανά GPU των G6e και τετραπλασιάζοντας αυτή των G5. Επιπλέον, οι δυνατότητες δικτύωσης ενισχύονται δραματικά, κλιμακώνοντας έως 1.600 Gbps με EFA στο μεγαλύτερο μέγεθος G7e. Αυτή η 4x αύξηση έναντι των G6e και 16x έναντι των G5 ξεκλειδώνει τη δυνατότητα για συμπερασματολογία πολλαπλών κόμβων χαμηλής καθυστέρησης και σενάρια fine-tuning που προηγουμένως θεωρούνταν μη πρακτικά.

Ακολουθεί μια σύγκριση που αναδεικνύει την εξέλιξη μεταξύ των γενεών στο επίπεδο των 8-GPU:

Προδιαγραφή	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
Μνήμη GPU ανά GPU	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
Συνολική Μνήμη GPU	192 GB	384 GB	768 GB
Εύρος ζώνης μνήμης GPU	600 GB/s ανά GPU	864 GB/s ανά GPU	1.597 GB/s ανά GPU
vCPUs	192	192	192
Μνήμη Συστήματος	768 GiB	1.536 GiB	2.048 GiB
Εύρος ζώνης Δικτύου	100 Gbps	400 Gbps	1.600 Gbps (EFA)
Τοπική Αποθήκευση NVMe	7,6 TB	7,6 TB	15,2 TB
Συμπερασματολογία έναντι G6e	Βασική γραμμή	~1x	Έως 2,3x

Με μια κολοσσιαία συνολική μνήμη GPU 768 GB σε μία μόνο έκδοση G7e, μοντέλα που κάποτε απαιτούσαν πολύπλοκες διαμορφώσεις πολλαπλών κόμβων σε παλαιότερες εκδόσεις μπορούν τώρα να αναπτυχθούν με αξιοσημείωτη απλότητα. Αυτό μειώνει σημαντικά την καθυστέρηση μεταξύ των κόμβων και το λειτουργικό κόστος. Σε συνδυασμό με την υποστήριξη ακρίβειας FP4 μέσω Tensor Cores πέμπτης γενιάς και NVIDIA GPUDirect RDMA μέσω EFAv4, οι εκδόσεις G7e είναι αναμφίβολα σχεδιασμένες για απαιτητικές LLM, πολυτροπικές ΤΝ και εξελιγμένες ροές εργασίας συμπερασματολογίας βασισμένες σε πράκτορες στην AWS.

Διαφορετικές Περιπτώσεις Χρήσης Παραγωγικής Τεχνητής Νοημοσύνης Αναπτύσσονται στις G7e

Ο ισχυρός συνδυασμός πυκνότητας μνήμης, εύρους ζώνης και προηγμένων δυνατοτήτων δικτύωσης καθιστά τις εκδόσεις G7e ιδανικές για ένα ευρύ φάσμα σύγχρονων φόρτων εργασίας παραγωγικής τεχνητής νοημοσύνης. Από την ενίσχυση της συνομιλιακής ΤΝ μέχρι την τροφοδοσία σύνθετων φυσικών προσομοιώσεων, οι G7e προσφέρουν απτά πλεονεκτήματα:

Chatbots και Συνομιλιακή Τεχνητή Νοημοσύνη: Ο χαμηλός Χρόνος Μέχρι το Πρώτο Token (TTFT) και η υψηλή απόδοση των εκδόσεων G7e εξασφαλίζουν ευαίσθητες και απρόσκοπτες διαδραστικές εμπειρίες, ακόμη και όταν αντιμετωπίζουν μεγάλο φόρτο ταυτόχρονων χρηστών. Αυτό είναι κρίσιμο για τη διατήρηση της δέσμευσης και της ικανοποίησης των χρηστών σε αλληλεπιδράσεις ΤΝ σε πραγματικό χρόνο.
Ροές εργασίας βασισμένες σε πράκτορες και κλήσεις εργαλείων: Για τις διαδικασίες Retrieval Augmented Generation (RAG) και τα συστήματα βασισμένα σε πράκτορες, η ταχεία εισαγωγή περιεχομένου από τους χώρους ανάκτησης είναι υψίστης σημασίας. Η 4 φορές βελτίωση στο εύρος ζώνης CPU-προς-GPU εντός των εκδόσεων G7e τις καθιστά εξαιρετικά αποτελεσματικές για αυτές τις κρίσιμες λειτουργίες, επιτρέποντας πιο έξυπνους και δυναμικούς πράκτορες ΤΝ.
Δημιουργία Κειμένου, Περίληψη και Συμπερασματολογία Μεγάλου Πλαισίου: Με 96 GB μνήμης ανά GPU, οι εκδόσεις G7e χειρίζονται επιδέξια μεγάλες κρυφές μνήμες Key-Value (KV). Αυτό επιτρέπει εκτεταμένα πλαίσια εγγράφων, μειώνοντας σημαντικά την ανάγκη για περικοπή κειμένου και διευκολύνοντας πιο πλούσια, πιο λεπτομερή συλλογιστική σε τεράστιες εισόδους.
Δημιουργία Εικόνων και Μοντέλα Όρασης: Όπου οι εκδόσεις προηγούμενης γενιάς αντιμετώπιζαν συχνά σφάλματα εκτός μνήμης με μεγαλύτερα πολυτροπικά μοντέλα, η διπλάσια χωρητικότητα μνήμης των G7e επιλύει εύκολα αυτούς τους περιορισμούς, ανοίγοντας τον δρόμο για πιο εξελιγμένες και υψηλότερης ανάλυσης εφαρμογές ΤΝ εικόνας και όρασης.
Φυσική Τεχνητή Νοημοσύνη και Επιστημονικοί Υπολογισμοί: Πέρα από την παραδοσιακή παραγωγική ΤΝ, η υπολογιστική ισχύ γενιάς Blackwell των G7e, η υποστήριξη FP4 και οι δυνατότητες χωρικού υπολογισμού (συμπεριλαμβανομένων DLSS 4.0 και πυρήνων RT 4ης γενιάς) επεκτείνουν τη χρησιμότητά της σε ψηφιακά δίδυμα, τρισδιάστατη προσομοίωση και προηγμένη συμπερασματολογία μοντέλων φυσικής ΤΝ, ανοίγοντας νέα σύνορα στην επιστημονική έρευνα και τις βιομηχανικές εφαρμογές.

Απλοποιημένη Ανάπτυξη και Αξιολόγηση Απόδοσης

Η ανάπτυξη μοντέλων παραγωγικής ΤΝ σε εκδόσεις G7e μέσω του Amazon SageMaker AI έχει σχεδιαστεί για να είναι απλή. Οι χρήστες μπορούν να έχουν πρόσβαση σε ένα δείγμα σημειωματάριου εδώ που απλοποιεί τη διαδικασία. Οι προϋποθέσεις περιλαμβάνουν συνήθως έναν λογαριασμό AWS, έναν ρόλο IAM για πρόσβαση στο SageMaker και είτε Amazon SageMaker Studio είτε μια έκδοση σημειωματάριου SageMaker για το περιβάλλον ανάπτυξης. Είναι σημαντικό, οι χρήστες θα πρέπει να ζητήσουν ένα κατάλληλο όριο (quota) για ml.g7e.2xlarge ή μεγαλύτερες εκδόσεις για χρήση τελικού σημείου SageMaker AI μέσω της κονσόλας Service Quotas.

Για να αποδείξει τα σημαντικά κέρδη απόδοσης, η AWS έκανε δοκιμές απόδοσης στο Qwen3-32B (BF16) τόσο σε εκδόσεις G6e όσο και G7e. Ο φόρτος εργασίας περιελάμβανε περίπου 1.000 tokens εισόδου και 560 tokens εξόδου ανά αίτημα, μιμούμενος κοινές εργασίες σύνοψης εγγράφων. Και οι δύο διαμορφώσεις χρησιμοποίησαν τον εγγενή κοντέινερ vLLM με ενεργοποιημένη την προσωρινή αποθήκευση προθεμάτων, εξασφαλίζοντας μια αντικειμενική σύγκριση.

Τα αποτελέσματα είναι εντυπωσιακά. Ενώ η βασική γραμμή G6e (ml.g6e.12xlarge με 4x L40S GPU στα $13,12/ώρα) έδειξε ισχυρή απόδοση ανά αίτημα, η G7e (ml.g7e.2xlarge με 1x RTX PRO 6000 Blackwell στα $4,20/ώρα) αφηγείται μια δραματικά διαφορετική ιστορία κόστους. Σε παραγωγική ταυτόχρονη εκτέλεση (C=32), η G7e πέτυχε ένα εκπληκτικό $0,79 ανά εκατομμύριο tokens εξόδου. Αυτό αντιπροσωπεύει μια μείωση κόστους 2,6 φορές σε σύγκριση με τα $2,06 της G6e, λόγω της χαμηλότερης ωριαίας τιμής της G7e και της ικανότητάς της να διατηρεί σταθερή απόδοση υπό φόρτο, αποδεικνύοντας ότι η υψηλή απόδοση δεν χρειάζεται να συνοδεύεται από υψηλό κόστος.

Το Μέλλον της Οικονομικά Αποδοτικής Συμπερασματολογίας Παραγωγικής Τεχνητής Νοημοσύνης

Η εισαγωγή των εκδόσεων G7e στο Amazon SageMaker AI είναι κάτι περισσότερο από μια απλή αναβάθμιση. είναι μια στρατηγική κίνηση της AWS για τον εκδημοκρατισμό της πρόσβασης σε υψηλής απόδοσης παραγωγική ΤΝ. Συνδυάζοντας την ακατέργαστη ισχύ των GPU NVIDIA RTX PRO 6000 Blackwell με τις δυνατότητες επεκτασιμότητας και διαχείρισης του SageMaker, η AWS ενδυναμώνει οργανισμούς όλων των μεγεθών να αναπτύξουν μεγαλύτερα, πιο σύνθετα μοντέλα ΤΝ με πρωτοφανή αποτελεσματικότητα και οικονομική αποδοτικότητα. Αυτή η εξέλιξη διασφαλίζει ότι οι πρόοδοι στην παραγωγική ΤΝ μπορούν να μεταφραστούν σε πρακτικές, έτοιμες για παραγωγή εφαρμογές σε ένα ευρύ φάσμα βιομηχανιών, εδραιώνοντας τη θέση του SageMaker AI ως κορυφαίας πλατφόρμας για την καινοτομία στην ΤΝ.

Αρχική πηγή

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Συχνές ερωτήσεις

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Μείνετε ενημερωμένοι

Λάβετε τα τελευταία νέα AI στο email σας.

Κοινοποίηση