title: "การอนุมาน Generative AI: เร่งความเร็วบน SageMaker ด้วยอินสแตนซ์ G7e" slug: "accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances" date: "2026-04-21" lang: "th" source: "https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/" category: "AI สำหรับองค์กร" keywords:
- Generative AI
- การอนุมาน AI
- Amazon SageMaker
- อินสแตนซ์ AWS G7e
- NVIDIA RTX PRO 6000
- การปรับใช้ LLM
- AI ที่คุ้มค่า
- หน่วยความจำ GPU
- Blackwell
- vLLM
- โมเดลพื้นฐาน
- เวิร์กโฟลว์เชิงตัวแทน meta_description: "เร่งการอนุมาน Generative AI บน Amazon SageMaker AI ด้วยอินสแตนซ์ G7e ใหม่ที่ขับเคลื่อนโดย NVIDIA RTX PRO 6000 Blackwell GPUs มอบประสิทธิภาพที่เร็วขึ้น 2.3 เท่า และประหยัดค่าใช้จ่าย" image: "/images/articles/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances.png" image_alt: "อินสแตนซ์ Amazon SageMaker AI G7e ช่วยเร่งการอนุมาน Generative AI ด้วย NVIDIA RTX PRO 6000 Blackwell GPUs" quality_score: 94 content_score: 93 seo_score: 95 companies:
- AWS schema_type: "NewsArticle" reading_time: 4 faq:
- question: "อินสแตนซ์ G7e คืออะไร และมีประโยชน์ต่อการอนุมาน Generative AI อย่างไร?" answer: "อินสแตนซ์ G7e คืออินสแตนซ์คอมพิวเตอร์ที่เร่งความเร็วด้วย GPU รุ่นล่าสุดที่มีให้ใช้งานบน Amazon SageMaker AI ซึ่งได้รับการออกแบบมาโดยเฉพาะเพื่อเร่งเวิร์กโหลดการอนุมาน Generative AI โดยขับเคลื่อนด้วย NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs ซึ่งนำเสนอความก้าวหน้าอย่างมากในด้านความจุหน่วยความจำ แบนด์วิดท์ และประสิทธิภาพการอนุมานโดยรวม สำหรับ Generative AI อินสแตนซ์ G7e หมายถึง Time To First Token (TTFT) ที่เร็วขึ้น ปริมาณงานที่สูงขึ้น และความสามารถในการโฮสต์โมเดลพื้นฐาน (FMs) ที่ใหญ่ขึ้นมากภายในอินสแตนซ์เดียว หรือแม้แต่บน GPU เดียว ซึ่งส่งผลให้แอปพลิเคชัน AI ตอบสนองได้ดีขึ้น ความซับซ้อนในการดำเนินงานลดลง และประหยัดค่าใช้จ่ายได้อย่างมากสำหรับการปรับใช้และรัน Large Language Models (LLMs), AI หลายโมดอล (multimodal AI) และเวิร์กโฟลว์เชิงตัวแทน (agentic workflows) ความสามารถที่เพิ่มขึ้นทำให้อินสแตนซ์เหล่านี้เหมาะอย่างยิ่งสำหรับแอปพลิเคชันแบบโต้ตอบที่ต้องการประสิทธิภาพสูงและคุ้มค่าสำหรับการอนุมาน"
- question: "GPU ของ NVIDIA รุ่นใดที่ขับเคลื่อนอินสแตนซ์ G7e ใหม่ และมีคุณสมบัติเด่นอะไรบ้าง?" answer: "อินสแตนซ์ G7e ใหม่บน Amazon SageMaker AI ขับเคลื่อนด้วย NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs โดยแต่ละ GPU ที่ล้ำสมัยเหล่านี้มีหน่วยความจำ GDDR7 ขนาด 96 GB ซึ่งเป็นสองเท่าของความจุหน่วยความจำต่อ GPU เมื่อเทียบกับอินสแตนซ์ G6e รุ่นก่อนหน้า คุณสมบัติสำคัญยังรวมถึงแบนด์วิดท์หน่วยความจำ GPU ขนาด 1,597 GB/s ต่อ GPU รองรับความแม่นยำ FP4 ผ่าน Tensor Cores รุ่นที่ห้า และ NVIDIA GPUDirect RDMA บน EFAv4 คุณสมบัติเหล่านี้รวมกันส่งผลให้ประสิทธิภาพการอนุมาน ความหนาแน่นของหน่วยความจำ และเครือข่ายที่มีเวลาแฝงต่ำของอินสแตนซ์ G7e เหนือกว่า ซึ่งทำให้เหมาะอย่างยิ่งสำหรับงาน Generative AI ที่มีความต้องการสูง"
- question: "อินสแตนซ์ G7e เปรียบเทียบกับรุ่นก่อนหน้า (G6e, G5) อย่างไรในด้านประสิทธิภาพและหน่วยความจำ?" answer: "อินสแตนซ์ G7e แสดงให้เห็นถึงการก้าวกระโดดอย่างมีนัยสำคัญเหนือ G6e และ G5 โดยมอบประสิทธิภาพการอนุมานที่เร็วขึ้นถึง 2.3 เท่าเมื่อเทียบกับอินสแตนซ์ G6e ในด้านหน่วยความจำ แต่ละ GPU ของ G7e มีหน่วยความจำ GDDR7 ขนาด 96 GB ซึ่งเพิ่มหน่วยความจำต่อ GPU เป็นสองเท่าของ G6e และสี่เท่าของ G5 อินสแตนซ์ G7e.48xlarge ระดับบนสุดให้หน่วยความจำ GPU รวมทั้งสิ้น 768 GB นอกจากนี้ แบนด์วิดท์เครือข่ายยังเพิ่มขึ้นถึง 1,600 Gbps ด้วย EFA บนขนาด G7e ที่ใหญ่ที่สุด ซึ่งเพิ่มขึ้น 4 เท่าเมื่อเทียบกับ G6e และ 16 เท่าเมื่อเทียบกับ G5 การปรับปรุงอย่างมากในด้านหน่วยความจำ แบนด์วิดท์ และเครือข่ายนี้ช่วยให้อินสแตนซ์ G7e สามารถโฮสต์โมเดลที่เคยต้องใช้การตั้งค่าแบบหลายโหนดบนอินสแตนซ์รุ่นเก่า ซึ่งช่วยลดความซับซ้อนในการปรับใช้และลดเวลาแฝง"
- question: "เวิร์กโหลด Generative AI ประเภทใดที่เหมาะสมที่สุดสำหรับการปรับใช้บนอินสแตนซ์ G7e?" answer: "อินสแตนซ์ G7e เหมาะอย่างยิ่งสำหรับเวิร์กโหลด Generative AI ที่ทันสมัยหลากหลายประเภท เนื่องจากมีความหนาแน่นของหน่วยความจำ แบนด์วิดท์ และเครือข่ายขั้นสูงสูง ซึ่งรวมถึง: Chatbots และ Conversational AI, ช่วยให้มั่นใจได้ถึงเวลาในการสร้างโทเค็นแรก (TTFT) ต่ำและปริมาณงานสูงสำหรับประสบการณ์การโต้ตอบที่ตอบสนอง; Agentic และ Tool-Calling Workflows, ได้รับประโยชน์จากแบนด์วิดท์ CPU-to-GPU ที่ดีขึ้น 4 เท่าสำหรับการฉีดบริบทที่รวดเร็วในไปป์ไลน์ RAG; Text Generation, Summarization, และ Long-Context Inference, รองรับแคช KV ขนาดใหญ่สำหรับบริบทเอกสารที่ยาวขึ้นด้วยหน่วยความจำ 96 GB ต่อ GPU; Image Generation และ Vision Models, แก้ปัญหาข้อผิดพลาดหน่วยความจำไม่พอสำหรับโมเดลหลายโมดอลขนาดใหญ่ที่เคยประสบปัญหาในอินสแตนซ์รุ่นก่อนหน้า; และ Physical AI และ Scientific Computing, ใช้ประโยชน์จากการประมวลผลยุค Blackwell, การรองรับ FP4 และความสามารถในการประมวลผลเชิงพื้นที่สำหรับดิจิทัลทวินและการจำลอง 3 มิติ"
- question: "ประสิทธิภาพด้านต้นทุนของอินสแตนซ์ G7e เปรียบเทียบกับ G6e สำหรับการอนุมาน Generative AI เป็นอย่างไร?" answer: "อินสแตนซ์ G7e มีประสิทธิภาพด้านต้นทุนที่ดีขึ้นอย่างมากสำหรับการอนุมาน Generative AI เมื่อเทียบกับอินสแตนซ์ G6e การทดสอบเปรียบเทียบที่ปรับใช้ Qwen3-32B แสดงให้เห็นว่า G7e ทำได้ $0.79 ต่อล้านโทเค็นเอาต์พุตที่ความพร้อมกันในการผลิต (C=32) ซึ่งแสดงถึงการลดต้นทุนที่โดดเด่นถึง 2.6 เท่าเมื่อเทียบกับ G6e ที่ $2.06 ต่อล้านโทเค็นเอาต์พุตสำหรับเวิร์กโหลดที่คล้ายกัน การประหยัดต้นทุนนี้เกิดจากอัตราต่อชั่วโมงที่ต่ำกว่าอย่างมากของ G7e (เช่น $4.20/ชม. สำหรับ ml.g7e.2xlarge เทียบกับ $13.12/ชม. สำหรับ ml.g6e.12xlarge) รวมกับความสามารถในการรักษาปริมาณงานที่สม่ำเสมอและสูงภายใต้ภาระงาน ซึ่งทำให้เป็นทางเลือกที่ประหยัดกว่าสำหรับการปรับใช้ขนาดใหญ่"
- question: "ความจุหน่วยความจำสำหรับการปรับใช้ LLM บนอินสแตนซ์ G7e แบบ GPU เดียวและหลาย GPU เป็นเท่าใด?" answer: "อินสแตนซ์ G7e มีความจุหน่วยความจำที่มากสำหรับการปรับใช้ Large Language Models (LLMs) GPU โหนดเดียว โดยเฉพาะอินสแตนซ์ G7e.2xlarge สามารถโฮสต์โมเดลพื้นฐานที่มีพารามิเตอร์สูงสุด 35 พันล้านตัวในความแม่นยำ FP16 สำหรับโมเดลที่ใหญ่ขึ้น การขยายขนาดข้าม GPU หลายตัวภายในอินสแตนซ์เดียวจะเพิ่มความจุได้อย่างมาก: โหนด 4-GPU (G7e.24xlarge) สามารถปรับใช้โมเดลได้สูงสุด 150 พันล้านพารามิเตอร์ ในขณะที่โหนด 8-GPU (G7e.48xlarge) สามารถจัดการโมเดลขนาดใหญ่ถึง 300 พันล้านพารามิเตอร์ได้ ความสามารถในการปรับขนาดที่น่าประทับใจนี้ช่วยให้องค์กรมีความยืดหยุ่นในการปรับใช้ LLM ที่หลากหลายโดยไม่ต้องมีความซับซ้อนของการตั้งค่าแบบกระจายหลายอินสแตนซ์"
- question: "ข้อกำหนดเบื้องต้นสำหรับการปรับใช้โซลูชันโดยใช้อินสแตนซ์ G7e บน Amazon SageMaker AI คืออะไร?"
answer: "ในการปรับใช้โซลูชัน Generative AI โดยใช้อินสแตนซ์ G7e บน Amazon SageMaker AI มีข้อกำหนดเบื้องต้นหลายประการที่ต้องปฏิบัติตาม คุณต้องมีบัญชี AWS ที่ใช้งานอยู่เพื่อโฮสต์ทรัพยากรของคุณและบทบาท AWS Identity and Access Management (IAM) ที่กำหนดค่าด้วยสิทธิ์ที่เหมาะสมในการเข้าถึงบริการ Amazon SageMaker AI สำหรับการพัฒนาและการปรับใช้ ขอแนะนำให้ใช้ Amazon SageMaker Studio หรืออินสแตนซ์ SageMaker notebook แต่สภาพแวดล้อมการพัฒนาแบบโต้ตอบอื่นๆ เช่น PyCharm หรือ Visual Studio Code ก็สามารถใช้งานได้เช่นกัน ที่สำคัญ คุณต้องขอโควต้าสำหรับอินสแตนซ์
ml.g7e.2xlargeอย่างน้อยหนึ่งรายการ (หรืออินสแตนซ์ G7e ประเภทที่ใหญ่กว่า) สำหรับการใช้งานปลายทาง Amazon SageMaker AI ผ่านคอนโซล AWS Service Quotas เนื่องจากเป็นอินสแตนซ์ประเภทใหม่และเฉพาะทาง"
อินสแตนซ์ G7e: ยุคใหม่ของการอนุมาน AI บน SageMaker
ภูมิทัศน์ของ Generative AI กำลังพัฒนาไปอย่างรวดเร็วอย่างไม่เคยมีมาก่อน ซึ่งขับเคลื่อนความต้องการโครงสร้างพื้นฐานที่มีประสิทธิภาพ ยืดหยุ่น และคุ้มค่ามากขึ้นอย่างต่อเนื่อง วันนี้ Code Velocity รู้สึกตื่นเต้นที่จะรายงานความก้าวหน้าที่สำคัญจาก AWS: การเปิดตัวอินสแตนซ์ G7e ทั่วไปบน Amazon SageMaker AI ซึ่งขับเคลื่อนโดย NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs อินสแตนซ์ใหม่เหล่านี้พร้อมที่จะกำหนดนิยามใหม่ของมาตรฐานสำหรับการอนุมาน Generative AI โดยนำเสนอประสิทธิภาพและความจุหน่วยความจำที่เหนือชั้นแก่นักพัฒนาและองค์กร
Amazon SageMaker AI เป็นบริการแบบจัดการเต็มรูปแบบที่ช่วยให้นักพัฒนาและนักวิทยาศาสตร์ข้อมูลสามารถสร้าง ฝึกอบรม และปรับใช้โมเดลแมชชีนเลิร์นนิงในขนาดใหญ่ได้ การเปิดตัวอินสแตนซ์ G7e ถือเป็นช่วงเวลาสำคัญสำหรับเวิร์กโหลด Generative AI บนแพลตฟอร์มนี้ อินสแตนซ์เหล่านี้ใช้ประโยชน์จาก NVIDIA RTX PRO 6000 Blackwell GPUs ที่ล้ำสมัย ซึ่งแต่ละตัวมีหน่วยความจำ GDDR7 ขนาด 96 GB ที่น่าประทับใจ การเพิ่มหน่วยความจำอย่างมากนี้ช่วยให้สามารถปรับใช้โมเดลพื้นฐาน (FMs) ที่ใหญ่ขึ้นอย่างมากได้โดยตรงบน SageMaker AI ซึ่งตอบสนองความต้องการที่สำคัญสำหรับแอปพลิเคชัน AI ขั้นสูง
ขณะนี้องค์กรสามารถปรับใช้โมเดลเช่น GPT-OSS-120B, Nemotron-3-Super-120B-A12B (รุ่น NVFP4) และ Qwen3.5-35B-A3B ได้อย่างมีประสิทธิภาพที่โดดเด่น อินสแตนซ์ G7e.2xlarge ที่มี GPU เดียว สามารถโฮสต์โมเดลขนาด 35B พารามิเตอร์ได้ ในขณะที่ G7e.48xlarge ที่มีแปด GPU สามารถขยายขนาดได้ถึงโมเดล 300B พารามิเตอร์ ความยืดหยุ่นนี้ส่งผลให้เกิดประโยชน์ที่จับต้องได้: ความซับซ้อนในการดำเนินงานลดลง เวลาแฝงที่ต่ำลง และการประหยัดค่าใช้จ่ายอย่างมากสำหรับเวิร์กโหลดการอนุมาน
ทำความเข้าใจถึงการก้าวกระโดดด้านประสิทธิภาพของ G7e
อินสแตนซ์ G7e แสดงถึงการก้าวกระโดดครั้งสำคัญเหนือรุ่นก่อนหน้า G6e และ G5 โดยมอบประสิทธิภาพการอนุมานที่เร็วขึ้นถึง 2.3 เท่าเมื่อเทียบกับ G6e ข้อมูลจำเพาะทางเทคนิคยืนยันถึงความก้าวหน้าทางยุคสมัยนี้ แต่ละ GPU ของ G7e มีแบนด์วิดท์ที่น่าทึ่งถึง 1,597 GB/s ซึ่งเพิ่มหน่วยความจำต่อ GPU เป็นสองเท่าของ G6e และสี่เท่าของ G5 นอกจากนี้ ความสามารถด้านเครือข่ายยังได้รับการปรับปรุงอย่างมาก โดยขยายได้ถึง 1,600 Gbps ด้วย EFA บนขนาด G7e ที่ใหญ่ที่สุด การเพิ่มขึ้น 4 เท่าเมื่อเทียบกับ G6e และ 16 เท่าเมื่อเทียบกับ G5 นี้ปลดล็อกศักยภาพสำหรับการอนุมานแบบหลายโหนดที่มีเวลาแฝงต่ำ และสถานการณ์การปรับแต่งที่เคยคิดว่าเป็นไปไม่ได้
นี่คือการเปรียบเทียบที่เน้นความก้าวหน้าในแต่ละรุ่นที่ระดับ 8-GPU:
| คุณสมบัติ | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
|---|---|---|---|
| GPU | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| หน่วยความจำ GPU ต่อ GPU | 24 GB GDDR6 | 48 GB GDDR6 | 96 GB GDDR7 |
| หน่วยความจำ GPU ทั้งหมด | 192 GB | 384 GB | 768 GB |
| แบนด์วิดท์หน่วยความจำ GPU | 600 GB/s ต่อ GPU | 864 GB/s ต่อ GPU | 1,597 GB/s ต่อ GPU |
| vCPUs | 192 | 192 | 192 |
| หน่วยความจำระบบ | 768 GiB | 1,536 GiB | 2,048 GiB |
| แบนด์วิดท์เครือข่าย | 100 Gbps | 400 Gbps | 1,600 Gbps (EFA) |
| พื้นที่จัดเก็บ NVMe ภายใน | 7.6 TB | 7.6 TB | 15.2 TB |
| ประสิทธิภาพการอนุมานเทียบกับ G6e | พื้นฐาน | ~1x | สูงสุด 2.3x |
ด้วยหน่วยความจำ GPU รวมขนาดใหญ่ถึง 768 GB บนอินสแตนซ์ G7e ตัวเดียว โมเดลที่เคยต้องการการกำหนดค่าแบบหลายโหนดที่ซับซ้อนบนอินสแตนซ์รุ่นเก่า ตอนนี้สามารถปรับใช้ได้ด้วยความเรียบง่ายที่โดดเด่น ซึ่งช่วยลดเวลาแฝงระหว่างโหนดและภาระงานการปฏิบัติงานได้อย่างมาก เมื่อรวมกับการรองรับความแม่นยำ FP4 ผ่าน Tensor Cores รุ่นที่ห้า และ NVIDIA GPUDirect RDMA บน EFAv4 อินสแตนซ์ G7e ได้รับการออกแบบมาอย่างชัดเจนสำหรับ LLM ที่มีความต้องการสูง, AI หลายโมดอล และ เวิร์กโฟลว์การอนุมานเชิงตัวแทนที่ซับซ้อน บน AWS
กรณีการใช้งาน Generative AI ที่หลากหลายเติบโตได้บน G7e
การผสมผสานที่แข็งแกร่งระหว่างความหนาแน่นของหน่วยความจำ แบนด์วิดท์ และความสามารถด้านเครือข่ายขั้นสูงทำให้อินสแตนซ์ G7e เหมาะอย่างยิ่งสำหรับเวิร์กโหลด Generative AI ร่วมสมัยหลากหลายประเภท ตั้งแต่การปรับปรุง AI เชิงสนทนาไปจนถึงการขับเคลื่อนการจำลองทางกายภาพที่ซับซ้อน G7e มอบข้อได้เปรียบที่จับต้องได้:
- Chatbots และ Conversational AI: เวลาในการสร้างโทเค็นแรก (Time To First Token หรือ TTFT) ที่ต่ำ และปริมาณงานสูงของอินสแตนซ์ G7e ช่วยให้มั่นใจได้ถึงประสบการณ์การโต้ตอบที่ตอบสนองและราบรื่น แม้จะต้องเผชิญกับภาระงานผู้ใช้ที่พร้อมกันจำนวนมาก นี่เป็นสิ่งสำคัญสำหรับการรักษาการมีส่วนร่วมและความพึงพอใจของผู้ใช้ในการโต้ตอบ AI แบบเรียลไทม์
- Agentic และ Tool-Calling Workflows: สำหรับไปป์ไลน์ Retrieval Augmented Generation (RAG) และระบบเชิงตัวแทน การฉีดบริบทที่รวดเร็วจากที่จัดเก็บข้อมูลการดึงข้อมูลเป็นสิ่งสำคัญ แบนด์วิดท์ CPU-to-GPU ที่ได้รับการปรับปรุง 4 เท่าภายในอินสแตนซ์ G7e ทำให้อินสแตนซ์เหล่านี้มีประสิทธิภาพเป็นพิเศษสำหรับการดำเนินการที่สำคัญเหล่านี้ ซึ่งช่วยให้เอเจนต์ AI ที่ชาญฉลาดและไดนามิกยิ่งขึ้น
- Text Generation, Summarization, และ Long-Context Inference: ด้วยหน่วยความจำ 96 GB ต่อ GPU อินสแตนซ์ G7e สามารถจัดการแคช Key-Value (KV) ขนาดใหญ่ได้อย่างเชี่ยวชาญ ซึ่งช่วยให้บริบทเอกสารที่ขยายใหญ่ขึ้น ช่วยลดความจำเป็นในการตัดข้อความ และอำนวยความสะดวกในการให้เหตุผลที่ละเอียดและลึกซึ้งยิ่งขึ้นจากข้อมูลป้อนเข้าจำนวนมาก
- Image Generation และ Vision Models: ในขณะที่อินสแตนซ์รุ่นก่อนหน้ามักจะประสบปัญหาข้อผิดพลาดหน่วยความจำไม่พอสำหรับโมเดลหลายโมดอลขนาดใหญ่ ความจุหน่วยความจำที่เพิ่มเป็นสองเท่าของ G7e ช่วยแก้ไขข้อจำกัดเหล่านี้ได้อย่างราบรื่น ปูทางไปสู่แอปพลิเคชัน AI ด้านภาพและการมองเห็นที่มีความซับซ้อนและมีความละเอียดสูงขึ้น
- Physical AI และ Scientific Computing: นอกเหนือจาก Generative AI แบบดั้งเดิมแล้ว การประมวลผลยุค Blackwell ของ G7e, การรองรับ FP4 และความสามารถในการประมวลผลเชิงพื้นที่ (รวมถึง DLSS 4.0 และ 4th-gen RT cores) ยังขยายประโยชน์ไปสู่ดิจิทัลทวิน, การจำลอง 3 มิติ และการอนุมานโมเดล AI เชิงกายภาพขั้นสูง ซึ่งเปิดพรมแดนใหม่ในการวิจัยทางวิทยาศาสตร์และการใช้งานในอุตสาหกรรม
การปรับใช้ที่คล่องตัวและการวัดประสิทธิภาพ
การปรับใช้โมเดล Generative AI บนอินสแตนซ์ G7e ผ่าน Amazon SageMaker AI ได้รับการออกแบบมาให้ง่ายดาย ผู้ใช้สามารถเข้าถึงสมุดบันทึกตัวอย่าง ที่นี่ ซึ่งช่วยลดความซับซ้อนของกระบวนการ ข้อกำหนดเบื้องต้นโดยทั่วไปได้แก่ บัญชี AWS, บทบาท IAM สำหรับการเข้าถึง SageMaker และ Amazon SageMaker Studio หรืออินสแตนซ์ SageMaker notebook สำหรับสภาพแวดล้อมการพัฒนา สิ่งสำคัญคือ ผู้ใช้ควรขอโควต้าที่เหมาะสมสำหรับ ml.g7e.2xlarge หรืออินสแตนซ์ที่ใหญ่กว่าสำหรับการใช้งานปลายทาง SageMaker AI ผ่านคอนโซล Service Quotas
เพื่อแสดงให้เห็นถึงประสิทธิภาพที่เพิ่มขึ้นอย่างมีนัยสำคัญ AWS ได้ทำการทดสอบเปรียบเทียบ Qwen3-32B (BF16) ทั้งบนอินสแตนซ์ G6e และ G7e เวิร์กโหลดประกอบด้วยโทเค็นอินพุตประมาณ 1,000 รายการและโทเค็นเอาต์พุต 560 รายการต่อคำขอ ซึ่งเลียนแบบงานสรุปเอกสารทั่วไป การกำหนดค่าทั้งสองใช้คอนเทนเนอร์ vLLM ดั้งเดิมพร้อมเปิดใช้งานการแคชพรีฟิกซ์ เพื่อให้แน่ใจว่าเป็นการเปรียบเทียบแบบเดียวกัน
ผลลัพธ์ที่ได้นั้นน่าสนใจ ในขณะที่ G6e พื้นฐาน (ml.g6e.12xlarge ที่มี 4x L40S GPUs ในราคา $13.12/ชม.) แสดงให้เห็นถึงทรูพุตต่อคำขอที่แข็งแกร่ง แต่ G7e (ml.g7e.2xlarge ที่มี 1x RTX PRO 6000 Blackwell ในราคา $4.20/ชม.) บอกเล่าเรื่องราวต้นทุนที่แตกต่างกันอย่างมาก ที่ความพร้อมกันในการผลิต (C=32) G7e ทำได้ถึง $0.79 ต่อล้านโทเค็นเอาต์พุตอย่างน่าประหลาดใจ ซึ่งแสดงถึงการลดต้นทุนที่โดดเด่นถึง 2.6 เท่าเมื่อเทียบกับ G6e ที่ $2.06 ซึ่งขับเคลื่อนโดยอัตราต่อชั่วโมงที่ต่ำกว่าของ G7e และความสามารถในการรักษาทรูพุตที่สม่ำเสมอภายใต้ภาระงาน พิสูจน์ว่าประสิทธิภาพสูงไม่จำเป็นต้องมาพร้อมกับค่าใช้จ่ายที่สูง
อนาคตของการอนุมาน Generative AI ที่คุ้มค่า
การเปิดตัวอินสแตนซ์ G7e บน Amazon SageMaker AI เป็นมากกว่าการอัปเกรดแบบค่อยเป็นค่อยไป แต่เป็นการเคลื่อนไหวเชิงกลยุทธ์โดย AWS เพื่อทำให้การเข้าถึง Generative AI ประสิทธิภาพสูงเป็นประชาธิปไตย ด้วยการรวมพลังดิบของ NVIDIA RTX PRO 6000 Blackwell GPUs เข้ากับความสามารถในการขยายขนาดและการจัดการของ SageMaker ทำให้ AWS กำลังเสริมศักยภาพองค์กรทุกขนาดในการปรับใช้โมเดล AI ที่ใหญ่ขึ้นและซับซ้อนมากขึ้นด้วยประสิทธิภาพและความคุ้มค่าที่ไม่เคยมีมาก่อน การพัฒนานี้ช่วยให้มั่นใจได้ว่าความก้าวหน้าใน Generative AI สามารถนำไปใช้ในแอปพลิเคชันที่พร้อมใช้งานจริงในอุตสาหกรรมที่หลากหลาย ซึ่งเสริมสร้างตำแหน่งของ SageMaker AI ในฐานะแพลตฟอร์มชั้นนำสำหรับการสร้างสรรค์นวัตกรรม AI
คำถามที่พบบ่อย
What are G7e instances and how do they benefit generative AI inference?
Which NVIDIA GPU powers the new G7e instances, and what are its key features?
How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?
What types of generative AI workloads are best suited for deployment on G7e instances?
What is the cost efficiency of G7e instances compared to G6e for generative AI inference?
What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?
What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?
อัปเดตข่าวสาร
รับข่าว AI ล่าสุดในกล่องจดหมายของคุณ
