Code Velocity
Sztuczna Inteligencja dla Przedsiębiorstw

Inferencja generatywnej sztucznej inteligencji: Przyspieszanie na SageMaker z instancjami G7e

·4 min czytania·AWS·Źródło oryginalne
Udostępnij
Instancje Amazon SageMaker AI G7e przyspieszające inferencję generatywnej sztucznej inteligencji dzięki procesorom NVIDIA RTX PRO 6000 Blackwell GPUs.

title: "Inferencja generatywnej sztucznej inteligencji: Przyspieszanie na SageMaker z instancjami G7e" slug: "accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances" date: "2026-04-21" lang: "pl" source: "https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/" category: "Sztuczna Inteligencja dla Przedsiębiorstw" keywords:

  • Generatywna Sztuczna Inteligencja
  • Inferencja AI
  • Amazon SageMaker
  • Instancje AWS G7e
  • NVIDIA RTX PRO 6000
  • Wdrażanie LLM
  • Ekonomiczna AI
  • Pamięć GPU
  • Blackwell
  • vLLM
  • Modele Bazowe
  • Przepływy Pracy Agentowe meta_description: "Przyspiesz inferencję generatywnej sztucznej inteligencji na Amazon SageMaker AI dzięki nowym instancjom G7e, napędzanym przez procesory NVIDIA RTX PRO 6000 Blackwell GPUs, oferującym 2.3x wydajność i oszczędności kosztów." image: "/images/articles/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances.png" image_alt: "Instancje Amazon SageMaker AI G7e przyspieszające inferencję generatywnej sztucznej inteligencji dzięki procesorom NVIDIA RTX PRO 6000 Blackwell GPUs." quality_score: 94 content_score: 93 seo_score: 95 companies:
  • AWS schema_type: "NewsArticle" reading_time: 4 faq:
  • question: "Czym są instancje G7e i jak wspierają inferencję generatywnej sztucznej inteligencji?" answer: "Instancje G7e to najnowsza generacja instancji obliczeniowych przyspieszanych przez GPU, dostępnych na Amazon SageMaker AI, specjalnie zaprojektowanych do przyspieszania zadań inferencji generatywnej sztucznej inteligencji. Są one napędzane przez procesory NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, oferując znaczące postępy w zakresie pojemności pamięci, przepustowości i ogólnej wydajności inferencji. Dla generatywnej sztucznej inteligencji, instancje G7e oznaczają szybszy Czas do Pierwszego Tokena (TTFT), wyższą przepustowość oraz możliwość hostowania znacznie większych modeli bazowych (FMs) w pojedynczej instancji, a nawet na pojedynczym GPU. Przekłada się to na bardziej responsywne aplikacje AI, zmniejszoną złożoność operacyjną i znaczne oszczędności kosztów wdrażania i uruchamiania dużych modeli językowych (LLMs), sztucznej inteligencji multimodalnej i przepływów pracy opartych na agentach. Ich ulepszone możliwości sprawiają, że są idealne do interaktywnych aplikacji wymagających wysokiej wydajności i ekonomicznej inferencji."
  • question: "Który procesor NVIDIA napędza nowe instancje G7e i jakie są jego kluczowe cechy?" answer: "Nowe instancje G7e na Amazon SageMaker AI są napędzane przez procesory NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Każdy z tych najnowocześniejszych procesorów zapewnia imponujące 96 GB pamięci GDDR7, co podwaja pojemność pamięci na GPU w porównaniu do poprzednich instancji G6e. Kluczowe cechy obejmują również przepustowość pamięci GPU wynoszącą 1 597 GB/s na GPU, obsługę precyzji FP4 poprzez rdzenie Tensor piątej generacji oraz NVIDIA GPUDirect RDMA over EFAv4. Cechy te wspólnie przyczyniają się do wyższej wydajności inferencji instancji G7e, gęstości pamięci i niskiego opóźnienia sieci, czyniąc je wyjątkowo zdolnymi do wymagających zadań generatywnej sztucznej inteligencji."
  • question: "Jak instancje G7e wypadają w porównaniu do poprzednich generacji (G6e, G5) pod względem wydajności i pamięci?" answer: "Instancje G7e demonstrują znaczący skok generacyjny w stosunku do G6e i G5. Zapewniają do 2.3x wyższą wydajność inferencji w porównaniu do instancji G6e. Pod względem pamięci, każdy procesor G7e oferuje 96 GB pamięci GDDR7, skutecznie podwajając pamięć na GPU w G6e i czterokrotnie zwiększając ją w G5. Najwyższej klasy instancja G7e.48xlarge zapewnia łącznie 768 GB pamięci GPU. Ponadto, przepustowość sieci skaluje się do 1600 Gbps z EFA na największym rozmiarze G7e, co stanowi 4-krotny skok w stosunku do G6e i 16-krotny w stosunku do G5. Ta ogromna poprawa w zakresie pamięci, przepustowości i sieci pozwala instancjom G7e hostować modele, które wcześniej wymagały konfiguracji wielowęzłowych na starszych instancjach, upraszczając wdrożenie i redukując opóźnienia."
  • question: "Jakie rodzaje zadań generatywnej sztucznej inteligencji najlepiej nadają się do wdrożenia na instancjach G7e?" answer: "Instancje G7e są wyjątkowo dobrze przystosowane do szerokiego zakresu nowoczesnych zadań generatywnej sztucznej inteligencji ze względu na ich wysoką gęstość pamięci, przepustowość i zaawansowane możliwości sieciowe. Obejmują one: Chatboty i konwersacyjną sztuczną inteligencję, zapewniając niski Czas do Pierwszego Tokena (TTFT) i wysoką przepustowość dla responsywnych interaktywnych doświadczeń; Przepływy pracy agentowe i z użyciem narzędzi, korzystając z 4-krotnie ulepszonej przepustowości CPU-GPU dla szybkiego wstrzykiwania kontekstu w potokach RAG; Generowanie tekstu, podsumowywanie i inferencję długich kontekstów, obsługując duże pamięci podręczne KV dla rozszerzonych kontekstów dokumentów z 96 GB pamięci na GPU; Generowanie obrazów i modele wizyjne, eliminując błędy braku pamięci dla większych modeli multimodalnych, które sprawiały problemy na poprzednich instancjach; oraz Fizyczną sztuczną inteligencję i obliczenia naukowe, wykorzystując obliczenia generacji Blackwell, obsługę FP4 i możliwości obliczeń przestrzennych dla cyfrowych bliźniaków i symulacji 3D."
  • question: "Jaka jest efektywność kosztowa instancji G7e w porównaniu do G6e dla inferencji generatywnej sztucznej inteligencji?" answer: "Instancje G7e oferują znacznie lepszą efektywność kosztową dla inferencji generatywnej sztucznej inteligencji w porównaniu do instancji G6e. Testy porównawcze wdrażające Qwen3-32B wykazały, że G7e osiągnęło 0.79 USD za milion wyjściowych tokenów przy jednoczesnym obciążeniu produkcyjnym (C=32). Stanowi to niezwykłą 2.6-krotną redukcję kosztów w porównaniu do 2.06 USD za milion wyjściowych tokenów w G6e dla podobnego obciążenia. Te oszczędności kosztów wynikają głównie z znacznie niższej stawki godzinowej G7e (np. 4.20 USD/godz. dla ml.g7e.2xlarge w porównaniu do 13.12 USD/godz. dla ml.g6e.12xlarge) w połączeniu z jego zdolnością do utrzymania stałej i wysokiej przepustowości pod obciążeniem, co czyni go bardziej ekonomicznym wyborem dla wdrożeń na dużą skalę."
  • question: "Jakie są pojemności pamięci dla wdrażania LLM na instancjach G7e z pojedynczym i wieloma GPU?" answer: "Instancje G7e oferują znaczące pojemności pamięci do wdrażania dużych modeli językowych (LLMs). Pojedynczy procesor GPU, w szczególności instancja G7e.2xlarge, może efektywnie hostować modele bazowe o parametrach do 35 miliardów w precyzji FP16. W przypadku większych modeli, skalowanie na wiele procesorów GPU w ramach pojedynczej instancji dramatycznie zwiększa pojemność: węzeł z 4 procesorami GPU (G7e.24xlarge) może wdrażać modele do 150 miliardów parametrów, podczas gdy węzeł z 8 procesorami GPU (G7e.48xlarge) może obsługiwać modele o rozmiarze do 300 miliardów parametrów. Ta imponująca skalowalność zapewnia organizacjom elastyczność w wdrażaniu szerokiej gamy LLM bez złożoności rozproszonych konfiguracji wieloinstancyjnych."
  • question: "Jakie są wymagania wstępne do wdrożenia rozwiązań wykorzystujących instancje G7e na Amazon SageMaker AI?" answer: "Aby wdrożyć rozwiązania generatywnej sztucznej inteligencji wykorzystujące instancje G7e na Amazon SageMaker AI, należy spełnić kilka wymagań wstępnych. Potrzebujesz aktywnego konta AWS do hostowania swoich zasobów oraz roli AWS Identity and Access Management (IAM) skonfigurowanej z odpowiednimi uprawnieniami dostępu do usług Amazon SageMaker AI. Do rozwoju i wdrożenia zaleca się dostęp do Amazon SageMaker Studio lub instancji notebooka SageMaker, choć inne interaktywne środowiska programistyczne, takie jak PyCharm czy Visual Studio Code, są również wykonalne. Co kluczowe, musisz zażądać limitu dla co najmniej jednej instancji 'ml.g7e.2xlarge' (lub większego typu instancji G7e) do użytku punktu końcowego Amazon SageMaker AI za pośrednictwem konsoli AWS Service Quotas, ponieważ są to nowe i wyspecjalizowane typy instancji."

## Instancje G7e: Nowa Era Inferencji AI na SageMaker

Krajobraz generatywnej sztucznej inteligencji ewoluuje w bezprecedensowym tempie, napędzając ciągłe zapotrzebowanie na potężniejszą, bardziej elastyczną i ekonomiczną infrastrukturę. Dziś Code Velocity z radością informuje o znaczącym postępie ze strony AWS: ogólnej dostępności instancji G7e na Amazon SageMaker AI. Napędzane przez procesory NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, te nowe instancje mają na nowo zdefiniować standardy dla inferencji generatywnej sztucznej inteligencji, oferując programistom i przedsiębiorstwom niezrównaną wydajność i pojemność pamięci.

Amazon SageMaker AI to w pełni zarządzana usługa, która zapewnia programistom i naukowcom danych narzędzia do budowania, trenowania i wdrażania modeli uczenia maszynowego na dużą skalę. Wprowadzenie instancji G7e stanowi kluczowy moment dla zadań generatywnej sztucznej inteligencji na tej platformie. Instancje te wykorzystują najnowocześniejsze procesory NVIDIA RTX PRO 6000 Blackwell GPUs, z których każdy może pochwalić się imponującymi 96 GB pamięci GDDR7. Ten znaczący wzrost pamięci pozwala na wdrażanie znacznie większych modeli bazowych (FMs) bezpośrednio na SageMaker AI, zaspokajając krytyczne potrzeby zaawansowanych aplikacji AI.

Organizacje mogą teraz wdrażać modele takie jak GPT-OSS-120B, Nemotron-3-Super-120B-A12B (wariant NVFP4) i Qwen3.5-35B-A3B z niezwykłą wydajnością. Instancja G7e.2xlarge, wyposażona w pojedynczy procesor GPU, może hostować modele z 35 miliardami parametrów, podczas gdy G7e.48xlarge, z ośmioma procesorami GPU, skaluje się do modeli z 300 miliardami parametrów. Ta elastyczność przekłada się na wymierne korzyści: zmniejszoną złożoność operacyjną, niższe opóźnienia i znaczne oszczędności kosztów dla zadań inferencji.

## Rozpakowujemy Generacyjny Skok Wydajności G7e

Instancje G7e stanowią monumentalny skok w stosunku do swoich poprzedników, G6e i G5, zapewniając do 2.3 razy szybszą inferencję w porównaniu do G6e. Specyfikacje techniczne podkreślają ten generacyjny postęp. Każdy procesor G7e zapewnia zdumiewającą przepustowość 1 597 GB/s, skutecznie podwajając pamięć na GPU w G6e i czterokrotnie zwiększając ją w G5. Ponadto, możliwości sieciowe zostały znacznie ulepszone, skalując się do 1 600 Gbps z EFA na największym rozmiarze G7e. Ten 4-krotny wzrost w stosunku do G6e i 16-krotny w stosunku do G5 odblokowuje potencjał dla nisko-opóźnieniowej inferencji wielowęzłowej i scenariuszy fine-tuningu, które wcześniej uznawano za niepraktyczne.

Poniżej przedstawiono porównanie podkreślające postęp między generacjami w tierze 8 GPU:

| Specyfikacja | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
| --- | --- | --- | --- |
| **GPU** | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| **Pamięć GPU na GPU** | 24 GB GDDR6 | 48 GB GDDR6 | 96 GB GDDR7 |
| **Całkowita Pamięć GPU** | 192 GB | 384 GB | 768 GB |
| **Przepustowość Pamięci GPU** | 600 GB/s na GPU | 864 GB/s na GPU | 1 597 GB/s na GPU |
| **vCPU** | 192 | 192 | 192 |
| **Pamięć Systemowa** | 768 GiB | 1 536 GiB | 2 048 GiB |
| **Przepustowość Sieci** | 100 Gbps | 400 Gbps | 1 600 Gbps (EFA) |
| **Lokalna Pamięć NVMe** | 7.6 TB | 7.6 TB | 15.2 TB |
| **Inferencja vs. G6e** | Bazowa | ~1x | Do 2.3x |

Dzięki kolosalnym 768 GB łącznej pamięci GPU na pojedynczej instancji G7e, modele, które kiedyś wymagały złożonych konfiguracji wielowęzłowych na starszych instancjach, mogą być teraz wdrażane z niezwykłą prostotą. Znacząco redukuje to opóźnienia między węzłami i narzuty operacyjne. W połączeniu z obsługą precyzji FP4 za pośrednictwem rdzeni Tensor piątej generacji i NVIDIA GPUDirect RDMA over EFAv4, instancje G7e są jednoznacznie zaprojektowane do wymagających LLM, multimodalnej AI i wyrafinowanych [agentowych przepływów inferencyjnych](/pl/operationalizing-agentic-ai-part-1-a-stakeholders-guide) na AWS.

## Różnorodne Przypadki Użycia Generatywnej AI Rozkwitają na G7e

Solidne połączenie gęstości pamięci, przepustowości i zaawansowanych możliwości sieciowych sprawia, że instancje G7e są idealne dla szerokiego spektrum współczesnych zadań generatywnej sztucznej inteligencji. Od ulepszania konwersacyjnej AI po zasilanie złożonych symulacji fizycznych, G7e oferuje wymierne korzyści:

*   **Chatboty i konwersacyjna AI**: Niski Czas do Pierwszego Tokena (TTFT) i wysoka przepustowość instancji G7e zapewniają responsywne i płynne doświadczenia interaktywne, nawet w obliczu dużego jednoczesnego obciążenia użytkownikami. Jest to kluczowe dla utrzymania zaangażowania i satysfakcji użytkowników w interakcjach AI w czasie rzeczywistym.
*   **Przepływy pracy agentowe i z użyciem narzędzi**: Dla potoków Retrieval Augmented Generation (RAG) i systemów agentowych, szybkie wstrzykiwanie kontekstu z magazynów wyszukiwania jest najważniejsze. 4-krotne ulepszenie przepustowości CPU-GPU w instancjach G7e sprawia, że są one wyjątkowo skuteczne w tych krytycznych operacjach, umożliwiając bardziej inteligentnych i dynamicznych agentów AI.
*   **Generowanie tekstu, podsumowywanie i inferencja długich kontekstów**: Dzięki 96 GB pamięci na GPU, instancje G7e sprawnie obsługują duże pamięci podręczne Klucz-Wartość (KV). Pozwala to na rozszerzone konteksty dokumentów, znacznie zmniejszając potrzebę obcinania tekstu i ułatwiając bogatsze, bardziej niuansowe rozumowanie na podstawie ogromnych danych wejściowych.
*   **Generowanie obrazów i modele wizyjne**: Tam, gdzie instancje poprzednich generacji często napotykały błędy braku pamięci w przypadku większych modeli multimodalnych, podwojona pojemność pamięci G7e z łatwością rozwiązuje te ograniczenia, otwierając drogę do bardziej wyrafinowanych i wyższych rozdzielczości aplikacji AI do obrazowania i wizji.
*   **Fizyczna AI i obliczenia naukowe**: Poza tradycyjną generatywną AI, obliczenia generacji Blackwell w G7e, obsługa FP4 i możliwości obliczeń przestrzennych (w tym DLSS 4.0 i rdzenie RT 4. generacji) rozszerzają jej użyteczność na cyfrowe bliźniaki, symulacje 3D i zaawansowaną inferencję modeli fizycznej AI, otwierając nowe granice w badaniach naukowych i zastosowaniach przemysłowych.

## Usprawnione Wdrażanie i Testy Porównawcze Wydajności

Wdrażanie modeli generatywnej AI na instancjach G7e za pośrednictwem Amazon SageMaker AI zostało zaprojektowane tak, aby było proste. Użytkownicy mogą uzyskać dostęp do przykładowego notebooka [tutaj](https://github.com/aws-samples/sagemaker-genai-hosting-examples/tree/main/03-features/instances/g7e), który usprawnia ten proces. Wymagania wstępne zazwyczaj obejmują konto AWS, rolę IAM do dostępu do SageMaker oraz Amazon SageMaker Studio lub instancję notebooka SageMaker dla środowiska programistycznego. Co ważne, użytkownicy powinni zażądać odpowiedniego limitu dla `ml.g7e.2xlarge` lub większych instancji do użytku punktu końcowego SageMaker AI za pośrednictwem konsoli Service Quotas.

Aby zademonstrować znaczące zyski wydajności, AWS przeprowadził testy porównawcze Qwen3-32B (BF16) zarówno na instancjach G6e, jak i G7e. Obciążenie obejmowało około 1000 tokenów wejściowych i 560 tokenów wyjściowych na żądanie, imitując typowe zadania podsumowywania dokumentów. Obie konfiguracje wykorzystywały natywny kontener [vLLM](https://github.com/vllm-project/vllm) z włączonym buforowaniem prefiksów, zapewniając porównanie "jabłek do jabłek".

Wyniki są przekonujące. Podczas gdy bazowa G6e (ml.g6e.12xlarge z 4x L40S GPUs za 13.12 USD/godz.) wykazywała wysoką przepustowość na żądanie, G7e (ml.g7e.2xlarge z 1x RTX PRO 6000 Blackwell za 4.20 USD/godz.) przedstawia dramatycznie inną historię kosztów. Przy jednoczesnym obciążeniu produkcyjnym (C=32), G7e osiągnęło zdumiewające 0.79 USD za milion wyjściowych tokenów. Stanowi to 2.6-krotną redukcję kosztów w porównaniu do 2.06 USD w G6e, co wynika z niższej stawki godzinowej G7e i jego zdolności do utrzymania stałej przepustowości pod obciążeniem, dowodząc, że wysoka wydajność nie musi wiązać się z wysoką ceną.

## Przyszłość Ekonomicznej Inferencji Generatywnej AI

Wprowadzenie instancji G7e na Amazon SageMaker AI to więcej niż tylko stopniowe ulepszenie; to strategiczny ruch AWS w celu demokratyzacji dostępu do wysokowydajnej generatywnej sztucznej inteligencji. Łącząc surową moc procesorów NVIDIA RTX PRO 6000 Blackwell GPUs ze skalowalnością i możliwościami zarządzania SageMaker, AWS umożliwia organizacjom każdej wielkości wdrażanie większych, bardziej złożonych modeli AI z bezprecedensową efektywnością i ekonomicznością. Ten rozwój zapewnia, że postępy w generatywnej sztucznej inteligencji mogą zostać przekształcone w praktyczne, gotowe do produkcji aplikacje w szerokim zakresie branż, umacniając pozycję SageMaker AI jako wiodącej platformy dla innowacji AI.

Często zadawane pytania

What are G7e instances and how do they benefit generative AI inference?
G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.
Which NVIDIA GPU powers the new G7e instances, and what are its key features?
The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.
How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?
G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.
What types of generative AI workloads are best suited for deployment on G7e instances?
G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.
What is the cost efficiency of G7e instances compared to G6e for generative AI inference?
G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.
What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?
G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.
What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?
To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Bądź na bieżąco

Otrzymuj najnowsze wiadomości o AI na swoją skrzynkę.

Udostępnij