การอนุมาน Generative AI: เร่งความเร็วบน SageMaker ด้วยอินสแตนซ์ G7e

title: "การอนุมาน Generative AI: เร่งความเร็วบน SageMaker ด้วยอินสแตนซ์ G7e" slug: "accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances" date: "2026-04-21" lang: "th" source: "https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/" category: "AI สำหรับองค์กร" keywords:

Generative AI
การอนุมาน AI
Amazon SageMaker
อินสแตนซ์ AWS G7e
NVIDIA RTX PRO 6000
การปรับใช้ LLM
AI ที่คุ้มค่า
หน่วยความจำ GPU
Blackwell
vLLM
โมเดลพื้นฐาน
เวิร์กโฟลว์เชิงตัวแทน meta_description: "เร่งการอนุมาน Generative AI บน Amazon SageMaker AI ด้วยอินสแตนซ์ G7e ใหม่ที่ขับเคลื่อนโดย NVIDIA RTX PRO 6000 Blackwell GPUs มอบประสิทธิภาพที่เร็วขึ้น 2.3 เท่า และประหยัดค่าใช้จ่าย" image: "/images/articles/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances.png" image_alt: "อินสแตนซ์ Amazon SageMaker AI G7e ช่วยเร่งการอนุมาน Generative AI ด้วย NVIDIA RTX PRO 6000 Blackwell GPUs" quality_score: 94 content_score: 93 seo_score: 95 companies:
AWS schema_type: "NewsArticle" reading_time: 4 faq:
question: "อินสแตนซ์ G7e คืออะไร และมีประโยชน์ต่อการอนุมาน Generative AI อย่างไร?" answer: "อินสแตนซ์ G7e คืออินสแตนซ์คอมพิวเตอร์ที่เร่งความเร็วด้วย GPU รุ่นล่าสุดที่มีให้ใช้งานบน Amazon SageMaker AI ซึ่งได้รับการออกแบบมาโดยเฉพาะเพื่อเร่งเวิร์กโหลดการอนุมาน Generative AI โดยขับเคลื่อนด้วย NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs ซึ่งนำเสนอความก้าวหน้าอย่างมากในด้านความจุหน่วยความจำ แบนด์วิดท์ และประสิทธิภาพการอนุมานโดยรวม สำหรับ Generative AI อินสแตนซ์ G7e หมายถึง Time To First Token (TTFT) ที่เร็วขึ้น ปริมาณงานที่สูงขึ้น และความสามารถในการโฮสต์โมเดลพื้นฐาน (FMs) ที่ใหญ่ขึ้นมากภายในอินสแตนซ์เดียว หรือแม้แต่บน GPU เดียว ซึ่งส่งผลให้แอปพลิเคชัน AI ตอบสนองได้ดีขึ้น ความซับซ้อนในการดำเนินงานลดลง และประหยัดค่าใช้จ่ายได้อย่างมากสำหรับการปรับใช้และรัน Large Language Models (LLMs), AI หลายโมดอล (multimodal AI) และเวิร์กโฟลว์เชิงตัวแทน (agentic workflows) ความสามารถที่เพิ่มขึ้นทำให้อินสแตนซ์เหล่านี้เหมาะอย่างยิ่งสำหรับแอปพลิเคชันแบบโต้ตอบที่ต้องการประสิทธิภาพสูงและคุ้มค่าสำหรับการอนุมาน"
question: "GPU ของ NVIDIA รุ่นใดที่ขับเคลื่อนอินสแตนซ์ G7e ใหม่ และมีคุณสมบัติเด่นอะไรบ้าง?" answer: "อินสแตนซ์ G7e ใหม่บน Amazon SageMaker AI ขับเคลื่อนด้วย NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs โดยแต่ละ GPU ที่ล้ำสมัยเหล่านี้มีหน่วยความจำ GDDR7 ขนาด 96 GB ซึ่งเป็นสองเท่าของความจุหน่วยความจำต่อ GPU เมื่อเทียบกับอินสแตนซ์ G6e รุ่นก่อนหน้า คุณสมบัติสำคัญยังรวมถึงแบนด์วิดท์หน่วยความจำ GPU ขนาด 1,597 GB/s ต่อ GPU รองรับความแม่นยำ FP4 ผ่าน Tensor Cores รุ่นที่ห้า และ NVIDIA GPUDirect RDMA บน EFAv4 คุณสมบัติเหล่านี้รวมกันส่งผลให้ประสิทธิภาพการอนุมาน ความหนาแน่นของหน่วยความจำ และเครือข่ายที่มีเวลาแฝงต่ำของอินสแตนซ์ G7e เหนือกว่า ซึ่งทำให้เหมาะอย่างยิ่งสำหรับงาน Generative AI ที่มีความต้องการสูง"
question: "อินสแตนซ์ G7e เปรียบเทียบกับรุ่นก่อนหน้า (G6e, G5) อย่างไรในด้านประสิทธิภาพและหน่วยความจำ?" answer: "อินสแตนซ์ G7e แสดงให้เห็นถึงการก้าวกระโดดอย่างมีนัยสำคัญเหนือ G6e และ G5 โดยมอบประสิทธิภาพการอนุมานที่เร็วขึ้นถึง 2.3 เท่าเมื่อเทียบกับอินสแตนซ์ G6e ในด้านหน่วยความจำ แต่ละ GPU ของ G7e มีหน่วยความจำ GDDR7 ขนาด 96 GB ซึ่งเพิ่มหน่วยความจำต่อ GPU เป็นสองเท่าของ G6e และสี่เท่าของ G5 อินสแตนซ์ G7e.48xlarge ระดับบนสุดให้หน่วยความจำ GPU รวมทั้งสิ้น 768 GB นอกจากนี้ แบนด์วิดท์เครือข่ายยังเพิ่มขึ้นถึง 1,600 Gbps ด้วย EFA บนขนาด G7e ที่ใหญ่ที่สุด ซึ่งเพิ่มขึ้น 4 เท่าเมื่อเทียบกับ G6e และ 16 เท่าเมื่อเทียบกับ G5 การปรับปรุงอย่างมากในด้านหน่วยความจำ แบนด์วิดท์ และเครือข่ายนี้ช่วยให้อินสแตนซ์ G7e สามารถโฮสต์โมเดลที่เคยต้องใช้การตั้งค่าแบบหลายโหนดบนอินสแตนซ์รุ่นเก่า ซึ่งช่วยลดความซับซ้อนในการปรับใช้และลดเวลาแฝง"
question: "เวิร์กโหลด Generative AI ประเภทใดที่เหมาะสมที่สุดสำหรับการปรับใช้บนอินสแตนซ์ G7e?" answer: "อินสแตนซ์ G7e เหมาะอย่างยิ่งสำหรับเวิร์กโหลด Generative AI ที่ทันสมัยหลากหลายประเภท เนื่องจากมีความหนาแน่นของหน่วยความจำ แบนด์วิดท์ และเครือข่ายขั้นสูงสูง ซึ่งรวมถึง: Chatbots และ Conversational AI, ช่วยให้มั่นใจได้ถึงเวลาในการสร้างโทเค็นแรก (TTFT) ต่ำและปริมาณงานสูงสำหรับประสบการณ์การโต้ตอบที่ตอบสนอง; Agentic และ Tool-Calling Workflows, ได้รับประโยชน์จากแบนด์วิดท์ CPU-to-GPU ที่ดีขึ้น 4 เท่าสำหรับการฉีดบริบทที่รวดเร็วในไปป์ไลน์ RAG; Text Generation, Summarization, และ Long-Context Inference, รองรับแคช KV ขนาดใหญ่สำหรับบริบทเอกสารที่ยาวขึ้นด้วยหน่วยความจำ 96 GB ต่อ GPU; Image Generation และ Vision Models, แก้ปัญหาข้อผิดพลาดหน่วยความจำไม่พอสำหรับโมเดลหลายโมดอลขนาดใหญ่ที่เคยประสบปัญหาในอินสแตนซ์รุ่นก่อนหน้า; และ Physical AI และ Scientific Computing, ใช้ประโยชน์จากการประมวลผลยุค Blackwell, การรองรับ FP4 และความสามารถในการประมวลผลเชิงพื้นที่สำหรับดิจิทัลทวินและการจำลอง 3 มิติ"
question: "ประสิทธิภาพด้านต้นทุนของอินสแตนซ์ G7e เปรียบเทียบกับ G6e สำหรับการอนุมาน Generative AI เป็นอย่างไร?" answer: "อินสแตนซ์ G7e มีประสิทธิภาพด้านต้นทุนที่ดีขึ้นอย่างมากสำหรับการอนุมาน Generative AI เมื่อเทียบกับอินสแตนซ์ G6e การทดสอบเปรียบเทียบที่ปรับใช้ Qwen3-32B แสดงให้เห็นว่า G7e ทำได้ $0.79 ต่อล้านโทเค็นเอาต์พุตที่ความพร้อมกันในการผลิต (C=32) ซึ่งแสดงถึงการลดต้นทุนที่โดดเด่นถึง 2.6 เท่าเมื่อเทียบกับ G6e ที่ $2.06 ต่อล้านโทเค็นเอาต์พุตสำหรับเวิร์กโหลดที่คล้ายกัน การประหยัดต้นทุนนี้เกิดจากอัตราต่อชั่วโมงที่ต่ำกว่าอย่างมากของ G7e (เช่น $4.20/ชม. สำหรับ ml.g7e.2xlarge เทียบกับ $13.12/ชม. สำหรับ ml.g6e.12xlarge) รวมกับความสามารถในการรักษาปริมาณงานที่สม่ำเสมอและสูงภายใต้ภาระงาน ซึ่งทำให้เป็นทางเลือกที่ประหยัดกว่าสำหรับการปรับใช้ขนาดใหญ่"
question: "ความจุหน่วยความจำสำหรับการปรับใช้ LLM บนอินสแตนซ์ G7e แบบ GPU เดียวและหลาย GPU เป็นเท่าใด?" answer: "อินสแตนซ์ G7e มีความจุหน่วยความจำที่มากสำหรับการปรับใช้ Large Language Models (LLMs) GPU โหนดเดียว โดยเฉพาะอินสแตนซ์ G7e.2xlarge สามารถโฮสต์โมเดลพื้นฐานที่มีพารามิเตอร์สูงสุด 35 พันล้านตัวในความแม่นยำ FP16 สำหรับโมเดลที่ใหญ่ขึ้น การขยายขนาดข้าม GPU หลายตัวภายในอินสแตนซ์เดียวจะเพิ่มความจุได้อย่างมาก: โหนด 4-GPU (G7e.24xlarge) สามารถปรับใช้โมเดลได้สูงสุด 150 พันล้านพารามิเตอร์ ในขณะที่โหนด 8-GPU (G7e.48xlarge) สามารถจัดการโมเดลขนาดใหญ่ถึง 300 พันล้านพารามิเตอร์ได้ ความสามารถในการปรับขนาดที่น่าประทับใจนี้ช่วยให้องค์กรมีความยืดหยุ่นในการปรับใช้ LLM ที่หลากหลายโดยไม่ต้องมีความซับซ้อนของการตั้งค่าแบบกระจายหลายอินสแตนซ์"
question: "ข้อกำหนดเบื้องต้นสำหรับการปรับใช้โซลูชันโดยใช้อินสแตนซ์ G7e บน Amazon SageMaker AI คืออะไร?" answer: "ในการปรับใช้โซลูชัน Generative AI โดยใช้อินสแตนซ์ G7e บน Amazon SageMaker AI มีข้อกำหนดเบื้องต้นหลายประการที่ต้องปฏิบัติตาม คุณต้องมีบัญชี AWS ที่ใช้งานอยู่เพื่อโฮสต์ทรัพยากรของคุณและบทบาท AWS Identity and Access Management (IAM) ที่กำหนดค่าด้วยสิทธิ์ที่เหมาะสมในการเข้าถึงบริการ Amazon SageMaker AI สำหรับการพัฒนาและการปรับใช้ ขอแนะนำให้ใช้ Amazon SageMaker Studio หรืออินสแตนซ์ SageMaker notebook แต่สภาพแวดล้อมการพัฒนาแบบโต้ตอบอื่นๆ เช่น PyCharm หรือ Visual Studio Code ก็สามารถใช้งานได้เช่นกัน ที่สำคัญ คุณต้องขอโควต้าสำหรับอินสแตนซ์ ml.g7e.2xlarge อย่างน้อยหนึ่งรายการ (หรืออินสแตนซ์ G7e ประเภทที่ใหญ่กว่า) สำหรับการใช้งานปลายทาง Amazon SageMaker AI ผ่านคอนโซล AWS Service Quotas เนื่องจากเป็นอินสแตนซ์ประเภทใหม่และเฉพาะทาง"

อินสแตนซ์ G7e: ยุคใหม่ของการอนุมาน AI บน SageMaker

ภูมิทัศน์ของ Generative AI กำลังพัฒนาไปอย่างรวดเร็วอย่างไม่เคยมีมาก่อน ซึ่งขับเคลื่อนความต้องการโครงสร้างพื้นฐานที่มีประสิทธิภาพ ยืดหยุ่น และคุ้มค่ามากขึ้นอย่างต่อเนื่อง วันนี้ Code Velocity รู้สึกตื่นเต้นที่จะรายงานความก้าวหน้าที่สำคัญจาก AWS: การเปิดตัวอินสแตนซ์ G7e ทั่วไปบน Amazon SageMaker AI ซึ่งขับเคลื่อนโดย NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs อินสแตนซ์ใหม่เหล่านี้พร้อมที่จะกำหนดนิยามใหม่ของมาตรฐานสำหรับการอนุมาน Generative AI โดยนำเสนอประสิทธิภาพและความจุหน่วยความจำที่เหนือชั้นแก่นักพัฒนาและองค์กร

Amazon SageMaker AI เป็นบริการแบบจัดการเต็มรูปแบบที่ช่วยให้นักพัฒนาและนักวิทยาศาสตร์ข้อมูลสามารถสร้าง ฝึกอบรม และปรับใช้โมเดลแมชชีนเลิร์นนิงในขนาดใหญ่ได้ การเปิดตัวอินสแตนซ์ G7e ถือเป็นช่วงเวลาสำคัญสำหรับเวิร์กโหลด Generative AI บนแพลตฟอร์มนี้ อินสแตนซ์เหล่านี้ใช้ประโยชน์จาก NVIDIA RTX PRO 6000 Blackwell GPUs ที่ล้ำสมัย ซึ่งแต่ละตัวมีหน่วยความจำ GDDR7 ขนาด 96 GB ที่น่าประทับใจ การเพิ่มหน่วยความจำอย่างมากนี้ช่วยให้สามารถปรับใช้โมเดลพื้นฐาน (FMs) ที่ใหญ่ขึ้นอย่างมากได้โดยตรงบน SageMaker AI ซึ่งตอบสนองความต้องการที่สำคัญสำหรับแอปพลิเคชัน AI ขั้นสูง

ขณะนี้องค์กรสามารถปรับใช้โมเดลเช่น GPT-OSS-120B, Nemotron-3-Super-120B-A12B (รุ่น NVFP4) และ Qwen3.5-35B-A3B ได้อย่างมีประสิทธิภาพที่โดดเด่น อินสแตนซ์ G7e.2xlarge ที่มี GPU เดียว สามารถโฮสต์โมเดลขนาด 35B พารามิเตอร์ได้ ในขณะที่ G7e.48xlarge ที่มีแปด GPU สามารถขยายขนาดได้ถึงโมเดล 300B พารามิเตอร์ ความยืดหยุ่นนี้ส่งผลให้เกิดประโยชน์ที่จับต้องได้: ความซับซ้อนในการดำเนินงานลดลง เวลาแฝงที่ต่ำลง และการประหยัดค่าใช้จ่ายอย่างมากสำหรับเวิร์กโหลดการอนุมาน

ทำความเข้าใจถึงการก้าวกระโดดด้านประสิทธิภาพของ G7e

อินสแตนซ์ G7e แสดงถึงการก้าวกระโดดครั้งสำคัญเหนือรุ่นก่อนหน้า G6e และ G5 โดยมอบประสิทธิภาพการอนุมานที่เร็วขึ้นถึง 2.3 เท่าเมื่อเทียบกับ G6e ข้อมูลจำเพาะทางเทคนิคยืนยันถึงความก้าวหน้าทางยุคสมัยนี้ แต่ละ GPU ของ G7e มีแบนด์วิดท์ที่น่าทึ่งถึง 1,597 GB/s ซึ่งเพิ่มหน่วยความจำต่อ GPU เป็นสองเท่าของ G6e และสี่เท่าของ G5 นอกจากนี้ ความสามารถด้านเครือข่ายยังได้รับการปรับปรุงอย่างมาก โดยขยายได้ถึง 1,600 Gbps ด้วย EFA บนขนาด G7e ที่ใหญ่ที่สุด การเพิ่มขึ้น 4 เท่าเมื่อเทียบกับ G6e และ 16 เท่าเมื่อเทียบกับ G5 นี้ปลดล็อกศักยภาพสำหรับการอนุมานแบบหลายโหนดที่มีเวลาแฝงต่ำ และสถานการณ์การปรับแต่งที่เคยคิดว่าเป็นไปไม่ได้

นี่คือการเปรียบเทียบที่เน้นความก้าวหน้าในแต่ละรุ่นที่ระดับ 8-GPU:

คุณสมบัติ	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
หน่วยความจำ GPU ต่อ GPU	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
หน่วยความจำ GPU ทั้งหมด	192 GB	384 GB	768 GB
แบนด์วิดท์หน่วยความจำ GPU	600 GB/s ต่อ GPU	864 GB/s ต่อ GPU	1,597 GB/s ต่อ GPU
vCPUs	192	192	192
หน่วยความจำระบบ	768 GiB	1,536 GiB	2,048 GiB
แบนด์วิดท์เครือข่าย	100 Gbps	400 Gbps	1,600 Gbps (EFA)
พื้นที่จัดเก็บ NVMe ภายใน	7.6 TB	7.6 TB	15.2 TB
ประสิทธิภาพการอนุมานเทียบกับ G6e	พื้นฐาน	~1x	สูงสุด 2.3x

ด้วยหน่วยความจำ GPU รวมขนาดใหญ่ถึง 768 GB บนอินสแตนซ์ G7e ตัวเดียว โมเดลที่เคยต้องการการกำหนดค่าแบบหลายโหนดที่ซับซ้อนบนอินสแตนซ์รุ่นเก่า ตอนนี้สามารถปรับใช้ได้ด้วยความเรียบง่ายที่โดดเด่น ซึ่งช่วยลดเวลาแฝงระหว่างโหนดและภาระงานการปฏิบัติงานได้อย่างมาก เมื่อรวมกับการรองรับความแม่นยำ FP4 ผ่าน Tensor Cores รุ่นที่ห้า และ NVIDIA GPUDirect RDMA บน EFAv4 อินสแตนซ์ G7e ได้รับการออกแบบมาอย่างชัดเจนสำหรับ LLM ที่มีความต้องการสูง, AI หลายโมดอล และ เวิร์กโฟลว์การอนุมานเชิงตัวแทนที่ซับซ้อน บน AWS

กรณีการใช้งาน Generative AI ที่หลากหลายเติบโตได้บน G7e

การผสมผสานที่แข็งแกร่งระหว่างความหนาแน่นของหน่วยความจำ แบนด์วิดท์ และความสามารถด้านเครือข่ายขั้นสูงทำให้อินสแตนซ์ G7e เหมาะอย่างยิ่งสำหรับเวิร์กโหลด Generative AI ร่วมสมัยหลากหลายประเภท ตั้งแต่การปรับปรุง AI เชิงสนทนาไปจนถึงการขับเคลื่อนการจำลองทางกายภาพที่ซับซ้อน G7e มอบข้อได้เปรียบที่จับต้องได้:

Chatbots และ Conversational AI: เวลาในการสร้างโทเค็นแรก (Time To First Token หรือ TTFT) ที่ต่ำ และปริมาณงานสูงของอินสแตนซ์ G7e ช่วยให้มั่นใจได้ถึงประสบการณ์การโต้ตอบที่ตอบสนองและราบรื่น แม้จะต้องเผชิญกับภาระงานผู้ใช้ที่พร้อมกันจำนวนมาก นี่เป็นสิ่งสำคัญสำหรับการรักษาการมีส่วนร่วมและความพึงพอใจของผู้ใช้ในการโต้ตอบ AI แบบเรียลไทม์
Agentic และ Tool-Calling Workflows: สำหรับไปป์ไลน์ Retrieval Augmented Generation (RAG) และระบบเชิงตัวแทน การฉีดบริบทที่รวดเร็วจากที่จัดเก็บข้อมูลการดึงข้อมูลเป็นสิ่งสำคัญ แบนด์วิดท์ CPU-to-GPU ที่ได้รับการปรับปรุง 4 เท่าภายในอินสแตนซ์ G7e ทำให้อินสแตนซ์เหล่านี้มีประสิทธิภาพเป็นพิเศษสำหรับการดำเนินการที่สำคัญเหล่านี้ ซึ่งช่วยให้เอเจนต์ AI ที่ชาญฉลาดและไดนามิกยิ่งขึ้น
Text Generation, Summarization, และ Long-Context Inference: ด้วยหน่วยความจำ 96 GB ต่อ GPU อินสแตนซ์ G7e สามารถจัดการแคช Key-Value (KV) ขนาดใหญ่ได้อย่างเชี่ยวชาญ ซึ่งช่วยให้บริบทเอกสารที่ขยายใหญ่ขึ้น ช่วยลดความจำเป็นในการตัดข้อความ และอำนวยความสะดวกในการให้เหตุผลที่ละเอียดและลึกซึ้งยิ่งขึ้นจากข้อมูลป้อนเข้าจำนวนมาก
Image Generation และ Vision Models: ในขณะที่อินสแตนซ์รุ่นก่อนหน้ามักจะประสบปัญหาข้อผิดพลาดหน่วยความจำไม่พอสำหรับโมเดลหลายโมดอลขนาดใหญ่ ความจุหน่วยความจำที่เพิ่มเป็นสองเท่าของ G7e ช่วยแก้ไขข้อจำกัดเหล่านี้ได้อย่างราบรื่น ปูทางไปสู่แอปพลิเคชัน AI ด้านภาพและการมองเห็นที่มีความซับซ้อนและมีความละเอียดสูงขึ้น
Physical AI และ Scientific Computing: นอกเหนือจาก Generative AI แบบดั้งเดิมแล้ว การประมวลผลยุค Blackwell ของ G7e, การรองรับ FP4 และความสามารถในการประมวลผลเชิงพื้นที่ (รวมถึง DLSS 4.0 และ 4th-gen RT cores) ยังขยายประโยชน์ไปสู่ดิจิทัลทวิน, การจำลอง 3 มิติ และการอนุมานโมเดล AI เชิงกายภาพขั้นสูง ซึ่งเปิดพรมแดนใหม่ในการวิจัยทางวิทยาศาสตร์และการใช้งานในอุตสาหกรรม

การปรับใช้ที่คล่องตัวและการวัดประสิทธิภาพ

การปรับใช้โมเดล Generative AI บนอินสแตนซ์ G7e ผ่าน Amazon SageMaker AI ได้รับการออกแบบมาให้ง่ายดาย ผู้ใช้สามารถเข้าถึงสมุดบันทึกตัวอย่าง ที่นี่ ซึ่งช่วยลดความซับซ้อนของกระบวนการ ข้อกำหนดเบื้องต้นโดยทั่วไปได้แก่ บัญชี AWS, บทบาท IAM สำหรับการเข้าถึง SageMaker และ Amazon SageMaker Studio หรืออินสแตนซ์ SageMaker notebook สำหรับสภาพแวดล้อมการพัฒนา สิ่งสำคัญคือ ผู้ใช้ควรขอโควต้าที่เหมาะสมสำหรับ ml.g7e.2xlarge หรืออินสแตนซ์ที่ใหญ่กว่าสำหรับการใช้งานปลายทาง SageMaker AI ผ่านคอนโซล Service Quotas

เพื่อแสดงให้เห็นถึงประสิทธิภาพที่เพิ่มขึ้นอย่างมีนัยสำคัญ AWS ได้ทำการทดสอบเปรียบเทียบ Qwen3-32B (BF16) ทั้งบนอินสแตนซ์ G6e และ G7e เวิร์กโหลดประกอบด้วยโทเค็นอินพุตประมาณ 1,000 รายการและโทเค็นเอาต์พุต 560 รายการต่อคำขอ ซึ่งเลียนแบบงานสรุปเอกสารทั่วไป การกำหนดค่าทั้งสองใช้คอนเทนเนอร์ vLLM ดั้งเดิมพร้อมเปิดใช้งานการแคชพรีฟิกซ์ เพื่อให้แน่ใจว่าเป็นการเปรียบเทียบแบบเดียวกัน

ผลลัพธ์ที่ได้นั้นน่าสนใจ ในขณะที่ G6e พื้นฐาน (ml.g6e.12xlarge ที่มี 4x L40S GPUs ในราคา $13.12/ชม.) แสดงให้เห็นถึงทรูพุตต่อคำขอที่แข็งแกร่ง แต่ G7e (ml.g7e.2xlarge ที่มี 1x RTX PRO 6000 Blackwell ในราคา $4.20/ชม.) บอกเล่าเรื่องราวต้นทุนที่แตกต่างกันอย่างมาก ที่ความพร้อมกันในการผลิต (C=32) G7e ทำได้ถึง $0.79 ต่อล้านโทเค็นเอาต์พุตอย่างน่าประหลาดใจ ซึ่งแสดงถึงการลดต้นทุนที่โดดเด่นถึง 2.6 เท่าเมื่อเทียบกับ G6e ที่ $2.06 ซึ่งขับเคลื่อนโดยอัตราต่อชั่วโมงที่ต่ำกว่าของ G7e และความสามารถในการรักษาทรูพุตที่สม่ำเสมอภายใต้ภาระงาน พิสูจน์ว่าประสิทธิภาพสูงไม่จำเป็นต้องมาพร้อมกับค่าใช้จ่ายที่สูง

อนาคตของการอนุมาน Generative AI ที่คุ้มค่า

การเปิดตัวอินสแตนซ์ G7e บน Amazon SageMaker AI เป็นมากกว่าการอัปเกรดแบบค่อยเป็นค่อยไป แต่เป็นการเคลื่อนไหวเชิงกลยุทธ์โดย AWS เพื่อทำให้การเข้าถึง Generative AI ประสิทธิภาพสูงเป็นประชาธิปไตย ด้วยการรวมพลังดิบของ NVIDIA RTX PRO 6000 Blackwell GPUs เข้ากับความสามารถในการขยายขนาดและการจัดการของ SageMaker ทำให้ AWS กำลังเสริมศักยภาพองค์กรทุกขนาดในการปรับใช้โมเดล AI ที่ใหญ่ขึ้นและซับซ้อนมากขึ้นด้วยประสิทธิภาพและความคุ้มค่าที่ไม่เคยมีมาก่อน การพัฒนานี้ช่วยให้มั่นใจได้ว่าความก้าวหน้าใน Generative AI สามารถนำไปใช้ในแอปพลิเคชันที่พร้อมใช้งานจริงในอุตสาหกรรมที่หลากหลาย ซึ่งเสริมสร้างตำแหน่งของ SageMaker AI ในฐานะแพลตฟอร์มชั้นนำสำหรับการสร้างสรรค์นวัตกรรม AI

แหล่งที่มา

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

คำถามที่พบบ่อย

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

อัปเดตข่าวสาร

รับข่าว AI ล่าสุดในกล่องจดหมายของคุณ

แชร์