G7e ინსტანციები: AI ინფერენსის ახალი ერა SageMaker-ზე
გენერაციული AI-ის ლანდშაფტი უპრეცედენტო ტემპით ვითარდება, რაც მუდმივ მოთხოვნას ქმნის უფრო მძლავრ, მოქნილ და ხარჯთეფექტურ ინფრასტრუქტურაზე. დღეს, Code Velocity სიხარულით იუწყება AWS-ის მნიშვნელოვანი წინსვლის შესახებ: G7e ინსტანციების ზოგადი ხელმისაწვდომობა Amazon SageMaker AI-ზე. NVIDIA RTX PRO 6000 Blackwell Server Edition GPU-ებით აღჭურვილი ეს ახალი ინსტანციები გენერაციული AI ინფერენსის ბენჩმარკების გადაფასებას აპირებენ, სთავაზობენ რა დეველოპერებსა და საწარმოებს შეუდარებელ წარმადობასა და მეხსიერების მოცულობას.
Amazon SageMaker AI არის სრულად მართული სერვისი, რომელიც დეველოპერებსა და მონაცემთა მეცნიერებს აწვდის ხელსაწყოებს მანქანური სწავლების მოდელების მასშტაბური მშენებლობის, გაწვრთნისა და განლაგებისთვის. G7e ინსტანციების დანერგვა გადამწყვეტ მომენტს აღნიშნავს გენერაციული AI სამუშაო დატვირთვებისთვის ამ პლატფორმაზე. ეს ინსტანციები იყენებენ უახლეს NVIDIA RTX PRO 6000 Blackwell GPU-ებს, რომელთაგან თითოეული ამაყობს შთამბეჭდავი 96 GB GDDR7 მეხსიერებით. მეხსიერების ეს მნიშვნელოვანი ზრდა იძლევა მნიშვნელოვნად უფრო დიდი ფუნდამენტური მოდელების (FMs) უშუალოდ SageMaker AI-ზე განლაგების საშუალებას, რაც აკმაყოფილებს მოწინავე AI აპლიკაციების კრიტიკულ საჭიროებას.
ორგანიზაციებს ახლა შეუძლიათ განათავსონ მოდელები, როგორიცაა GPT-OSS-120B, Nemotron-3-Super-120B-A12B (NVFP4 ვარიანტი) და Qwen3.5-35B-A3B შესანიშნავი ეფექტურობით. G7e.2xlarge ინსტანციას, რომელსაც აქვს ერთი GPU, შეუძლია უმასპინძლოს 35 მილიარდ პარამეტრის მოდელებს, ხოლო G7e.48xlarge, რვა GPU-თი, მასშტაბირდება 300 მილიარდ პარამეტრის მოდელებამდე. ეს მოქნილობა გამოიხატება ხელშესახებ სარგებელში: შემცირებული ოპერაციული სირთულე, დაბალი შეყოვნება და მნიშვნელოვანი ხარჯების დაზოგვა ინფერენსის სამუშაო დატვირთვებისთვის.
G7e-ის თაობათა წარმადობის ნახტომის გაშიფვრა
G7e ინსტანციები წარმოადგენს მონუმენტურ ნახტომს თავის წინამორბედებთან, G6e-სა და G5-თან შედარებით, რაც 2.3-ჯერ უფრო სწრაფ ინფერენსის წარმადობას უზრუნველყოფს G6e-სთან შედარებით. ტექნიკური მახასიათებლები ხაზს უსვამს ამ თაობათა წინსვლას. თითოეული G7e GPU უზრუნველყოფს საოცარ 1,597 GB/წმ გამტარუნარიანობას, რაც ეფექტურად აორმაგებს G6e-ის GPU-ზე მეხსიერებას და ოთხმაგებს G5-ისას. გარდა ამისა, ქსელური შესაძლებლობები დრამატულად გაუმჯობესებულია, რაც იზრდება 1,600 Gbps-მდე EFA-სთან ერთად G7e-ის უდიდეს ზომაზე. ეს 4-ჯერადი ზრდა G6e-ზე და 16-ჯერადი G5-ზე ხსნის დაბალი შეყოვნების მრავალკვანძოვანი ინფერენსის და თხელი რეგულირების სცენარების პოტენციალს, რაც ადრე არაპრაქტიკულად ითვლებოდა.
აქ მოცემულია შედარება, რომელიც ხაზს უსვამს პროგრესს თაობებს შორის 8-GPU დონეზე:
| მახასიათებელი | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
|---|---|---|---|
| GPU | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| GPU მეხსიერება თითო GPU-ზე | 24 GB GDDR6 | 48 GB GDDR6 | 96 GB GDDR7 |
| სრული GPU მეხსიერება | 192 GB | 384 GB | 768 GB |
| GPU მეხსიერების გამტარუნარიანობა | 600 GB/s თითო GPU-ზე | 864 GB/s თითო GPU-ზე | 1,597 GB/s თითო GPU-ზე |
| vCPU | 192 | 192 | 192 |
| სისტემური მეხსიერება | 768 GiB | 1,536 GiB | 2,048 GiB |
| ქსელის გამტარუნარიანობა | 100 Gbps | 400 Gbps | 1,600 Gbps (EFA) |
| ლოკალური NVMe საცავი | 7.6 TB | 7.6 TB | 15.2 TB |
| ინფერენსი G6e-სთან შედარებით | Baseline | ~1x | Up to 2.3x |
768 GB-ის კოლოსალური ჯამური GPU მეხსიერებით ერთ G7e ინსტანციაზე, მოდელები, რომლებიც ოდესღაც რთულ მრავალკვანძოვან კონფიგურაციებს მოითხოვდნენ ძველ ინსტანციებზე, ახლა შეიძლება განლაგდეს შესანიშნავი სიმარტივით. ეს მნიშვნელოვნად ამცირებს კვანძთაშორის შეყოვნებასა და ოპერაციულ ხარჯებს. მეხუთე თაობის Tensor Cores-ის მეშვეობით FP4 სიზუსტის მხარდაჭერასთან და EFAv4-ზე NVIDIA GPUDirect RDMA-სთან ერთად, G7e ინსტანციები ცალსახად შექმნილია მოთხოვნადი LLM, მულტიმოდალური AI და დახვეწილი აგენტური ინფერენსის სამუშაო პროცესებისთვის AWS-ზე.
G7e-ზე გენერაციული AI-ის მრავალფეროვანი გამოყენების შემთხვევები ყვავის
მეხსიერების სიმკვრივის, გამტარუნარიანობისა და მოწინავე ქსელური შესაძლებლობების მძლავრი კომბინაცია G7e ინსტანციებს იდეალურს ხდის თანამედროვე გენერაციული AI სამუშაო დატვირთვების ფართო სპექტრისთვის. საუბრის AI-ის გაუმჯობესებიდან დაწყებული რთული ფიზიკური სიმულაციების გაძლიერებამდე, G7e გვთავაზობს ხელშესახებ უპირატესობებს:
- ჩეთბოტები და საუბრის AI: G7e ინსტანციების დაბალი Time To First Token (TTFT) და მაღალი გამტარუნარიანობა უზრუნველყოფს რეაგირებად და უწყვეტ ინტერაქტიულ გამოცდილებას, მაშინაც კი, როდესაც დიდი რაოდენობით ერთდროული მომხმარებლის დატვირთვაა. ეს გადამწყვეტია მომხმარებლის ჩართულობისა და კმაყოფილების შესანარჩუნებლად რეალურ დროში AI ურთიერთქმედებებში.
- აგენტური და ხელსაწყოების გამოძახების სამუშაო პროცესები: Retrieval Augmented Generation (RAG) მილსადენებისა და აგენტური სისტემებისთვის, სწრაფი კონტექსტის ინექცია საძიებო საცავებიდან უმნიშვნელოვანესია. CPU-დან GPU-ზე გამტარუნარიანობის 4-ჯერ გაუმჯობესება G7e ინსტანციებში მათ განსაკუთრებულად ეფექტურს ხდის ამ კრიტიკული ოპერაციებისთვის, რაც შესაძლებელს ხდის უფრო ინტელექტუალური და დინამიური AI აგენტების შექმნას.
- ტექსტის გენერაცია, შეჯამება და გრძელი კონტექსტის ინფერენსი: 96 GB-ის თითო GPU-ზე მეხსიერებით, G7e ინსტანციები ოსტატურად ამუშავებენ დიდ Key-Value (KV) ქეშებს. ეს იძლევა გაფართოებული დოკუმენტის კონტექსტების საშუალებას, რაც მნიშვნელოვნად ამცირებს ტექსტის შემოკლების საჭიროებას და ხელს უწყობს უფრო მდიდარ, ნიუანსურ დასაბუთებას ვრცელი შეყვანის საფუძველზე.
- გამოსახულების გენერაცია და ვიზუალური მოდელები: იქ, სადაც წინა თაობის ინსტანციებს ხშირად ჰქონდათ მეხსიერების ამოწურვის შეცდომები უფრო დიდი მულტიმოდალური მოდელებით, G7e-ის გაორმაგებული მეხსიერების მოცულობა ელეგანტურად აგვარებს ამ შეზღუდვებს, რაც გზას უხსნის უფრო დახვეწილ და მაღალი გარჩევადობის გამოსახულების და ვიზუალური AI აპლიკაციებს.
- ფიზიკური AI და სამეცნიერო გამოთვლები: ტრადიციული გენერაციული AI-ის მიღმა, G7e-ის Blackwell-ის თაობის გამოთვლები, FP4 მხარდაჭერა და სივრცული გამოთვლითი შესაძლებლობები (DLSS 4.0 და მე-4 თაობის RT ბირთვების ჩათვლით) აფართოებს მის გამოყენებას ციფრულ ტყუპებზე, 3D სიმულაციაზე და მოწინავე ფიზიკური AI მოდელის ინფერენსზე, რაც ახალ ჰორიზონტს უხსნის სამეცნიერო კვლევებსა და სამრეწველო აპლიკაციებს.
გამარტივებული განლაგება და წარმადობის ბენჩმარკინგი
გენერაციული AI მოდელების განლაგება G7e ინსტანციებზე Amazon SageMaker AI-ის მეშვეობით შექმნილია მარტივად. მომხმარებლებს შეუძლიათ მიიღონ წვდომა ნიმუშის ნოუთბუქზე აქ, რომელიც ამარტივებს პროცესს. წინაპირობები, როგორც წესი, მოიცავს AWS ანგარიშს, IAM როლს SageMaker-ზე წვდომისთვის და Amazon SageMaker Studio-ს ან SageMaker ნოუთბუქის ინსტანციას განვითარების გარემოსთვის. რაც მთავარია, მომხმარებლებმა უნდა მოითხოვონ შესაბამისი კვოტა ml.g7e.2xlarge ან უფრო დიდი ინსტანციებისთვის SageMaker AI endpoint-ის გამოყენებისთვის Service Quotas კონსოლის მეშვეობით.
მნიშვნელოვანი წარმადობის გაუმჯობესების დემონსტრირებისთვის, AWS-მა შეაფასა Qwen3-32B (BF16) როგორც G6e, ასევე G7e ინსტანციებზე. სამუშაო დატვირთვა მოიცავდა დაახლოებით 1,000 შეყვანის ტოკენს და 560 გამომავალ ტოკენს თითო მოთხოვნაზე, რაც მიბაძავდა დოკუმენტების შეჯამების ჩვეულებრივ ამოცანებს. ორივე კონფიგურაციამ გამოიყენა მშობლიური vLLM კონტეინერი პრეფიქსის ქეშირებით, რაც უზრუნველყოფს ობიექტურ შედარებას.
შედეგები დამაჯერებელია. მიუხედავად იმისა, რომ G6e-ის საბაზისო მაჩვენებელმა (ml.g6e.12xlarge 4x L40S GPU-ით საათში 13.12 აშშ დოლარად) აჩვენა ძლიერი გამტარუნარიანობა თითო მოთხოვნაზე, G7e (ml.g7e.2xlarge 1x RTX PRO 6000 Blackwell-ით საათში 4.20 აშშ დოლარად) დრამატულად განსხვავებულ ხარჯთეფექტურობას გვიჩვენებს. წარმოების კონკურენტუნარიანობისას (C=32), G7e-მ მიაღწია საოცარ 0.79 აშშ დოლარს მილიონ გამომავალ ტოკენზე. ეს წარმოადგენს ხარჯების 2.6-ჯერ შემცირებას G6e-ის 2.06 აშშ დოლართან შედარებით, რაც განპირობებულია G7e-ის დაბალი საათობრივი ტარიფით და მისი უნარით შეინარჩუნოს თანმიმდევრული გამტარუნარიანობა დატვირთვის ქვეშ, რაც ამტკიცებს, რომ მაღალი წარმადობა ძვირი არ უნდა ღირდეს.
ხარჯთეფექტური გენერაციული AI ინფერენსის მომავალი
G7e ინსტანციების დანერგვა Amazon SageMaker AI-ზე უფრო მეტია, ვიდრე უბრალოდ ეტაპობრივი განახლება; ეს არის AWS-ის სტრატეგიული ნაბიჯი, რათა მაღალი წარმადობის გენერაციულ AI-ზე ხელმისაწვდომობა დემოკრატიული გახდეს. NVIDIA RTX PRO 6000 Blackwell GPU-ების ნედლი სიმძლავრის SageMaker-ის მასშტაბურობისა და მართვის შესაძლებლობებთან შერწყმით, AWS აძლევს საშუალებას ყველა ზომის ორგანიზაციას განათავსონ უფრო დიდი, რთული AI მოდელები უპრეცედენტო ეფექტურობითა და ხარჯთეფექტურობით. ეს განვითარება უზრუნველყოფს, რომ გენერაციული AI-ის მიღწევები შეიძლება გადაკეთდეს პრაქტიკულ, წარმოებისთვის მზა აპლიკაციებად ინდუსტრიების ფართო სპექტრში, რაც აძლიერებს SageMaker AI-ის პოზიციას, როგორც AI ინოვაციების წამყვან პლატფორმას.
ორიგინალი წყარო
https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/ხშირად დასმული კითხვები
What are G7e instances and how do they benefit generative AI inference?
Which NVIDIA GPU powers the new G7e instances, and what are its key features?
How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?
What types of generative AI workloads are best suited for deployment on G7e instances?
What is the cost efficiency of G7e instances compared to G6e for generative AI inference?
What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?
What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?
იყავით ინფორმირებული
მიიღეთ უახლესი AI სიახლეები ელფოსტაზე.
