ซูเปอร์คอมพิวเตอร์ AI ระดับแร็ค: จากฮาร์ดแวร์สู่การจัดกำหนดการที่รับรู้โทโพโลยี

title: "ซูเปอร์คอมพิวเตอร์ AI ระดับแร็ค: จากฮาร์ดแวร์สู่การจัดกำหนดการที่รับรู้โทโพโลยี" slug: "running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling" date: "2026-04-08" lang: "th" source: "https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/" category: "AI สำหรับองค์กร" keywords:

เวิร์กโหลด AI
ซูเปอร์คอมพิวเตอร์ระดับแร็ค
NVIDIA Blackwell
NVLink
การจัดกำหนดการที่รับรู้โทโพโลยี
Slurm
NVIDIA Mission Control
Multi-Node NVLink (MNNVL)
IMEX
เครือข่าย GPU
การจัดการทรัพยากร
AI สำหรับองค์กร meta_description: "เจาะลึกว่าซูเปอร์คอมพิวเตอร์ NVIDIA Blackwell ที่ทำงานร่วมกับ Mission Control ช่วยให้การจัดกำหนดการที่รับรู้โทโพโลยีสำหรับเวิร์กโหลด AI เป็นไปได้อย่างไร ซึ่งช่วยเพิ่มประสิทธิภาพทั่วทั้งโดเมน NVLink และ IMEX" image: "/images/articles/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling.png" image_alt: "แร็ค NVIDIA Grace Blackwell NVL72 แสดงโดเมน NVLink และ IMEX สำหรับซูเปอร์คอมพิวเตอร์ AI ระดับแร็ค" quality_score: 94 content_score: 93 seo_score: 95 companies:
NVIDIA schema_type: "NewsArticle" reading_time: 7 faq:
question: "ระบบ NVIDIA GB200 และ GB300 NVL72 คืออะไร และสถาปัตยกรรม Blackwell มีบทบาทอย่างไร?" answer: "ระบบ NVIDIA GB200 และ GB300 NVL72 แสดงถึงซูเปอร์คอมพิวเตอร์ระดับแร็ครุ่นใหม่ที่ออกแบบมาโดยเฉพาะสำหรับเวิร์กโหลด AI และ HPC ที่มีความต้องการสูง ระบบเหล่านี้ใช้ประโยชน์จากสถาปัตยกรรม NVIDIA Blackwell ที่เป็นนวัตกรรมใหม่ ซึ่งรวมเครือข่าย GPU ขนาดใหญ่เข้ากับเครือข่ายแบนด์วิดท์สูงในหน่วยเดียวที่เชื่อมโยงกันอย่างแน่นหนา สถาปัตยกรรม Blackwell ได้รับการออกแบบมาเพื่อมอบประสิทธิภาพและประสิทธิผลที่ไม่เคยมีมาก่อนสำหรับการฝึกอบรมและการอนุมาน โดยมีสวิตช์ NVLink ขั้นสูง, Multi-Node NVLink (MNNVL) สำหรับการสื่อสารระหว่าง GPU และถาดประมวลผลที่รองรับ IMEX ซึ่งช่วยให้หน่วยความจำ GPU สามารถใช้ร่วมกันได้ระหว่างโหนดหลายตัวภายในแร็ค การออกแบบแบบบูรณาการนี้มีจุดมุ่งหมายเพื่อเอาชนะข้อจำกัดของการติดตั้ง GPU แบบเดิมที่ผูกกับเซิร์ฟเวอร์ โดยมอบแพลตฟอร์มที่ราบรื่นและปรับขนาดได้สำหรับโมเดล AI ที่ซับซ้อน"
question: "ความท้าทายหลักในการจัดกำหนดการเวิร์กโหลด AI บนซูเปอร์คอมพิวเตอร์ระดับแร็คขั้นสูงเหล่านี้คืออะไร?" answer: "ความท้าทายหลักอยู่ที่ความไม่ตรงกันอย่างมีนัยสำคัญระหว่างโทโพโลยีทางกายภาพที่ซับซ้อนและมีลำดับชั้นของซูเปอร์คอมพิวเตอร์ระดับแร็ค กับการสรุปที่มักจะเรียบง่ายที่นำเสนอโดยตัวจัดกำหนดการเวิร์กโหลดทั่วไป ในขณะที่ระบบอย่าง NVIDIA GB200/GB300 NVL72 มีเครือข่าย NVLink และโดเมน IMEX ที่ซับซ้อน ตัวจัดกำหนดการมักจะมองเห็น GPU และโหนดเป็นกลุ่มที่แบนราบ สิ่งนี้สามารถนำไปสู่การจัดสรรทรัพยากรที่ไม่มีประสิทธิภาพ ประสิทธิภาพที่ต่ำกว่าเกณฑ์เนื่องจากข้อมูลที่อยู่ไม่ตรงกันหรือคอขวดในการสื่อสาร และความซับซ้อนในการปฏิบัติงานที่เพิ่มขึ้นสำหรับผู้ดูแลแพลตฟอร์ม หากไม่มีการจัดกำหนดการที่รับรู้โทโพโลยี ข้อดีโดยธรรมชาติของการรวมระบบระดับแร็ค เช่น การเชื่อมต่อที่มีแบนด์วิดท์สูง จะไม่สามารถนำมาใช้ประโยชน์ได้อย่างเต็มที่สำหรับเวิร์กโหลด AI"
question: "NVIDIA Mission Control จัดการกับความซับซ้อนในการปฏิบัติงานของการจัดกำหนดการ AI ระดับแร็คได้อย่างไร?" answer: "NVIDIA Mission Control ทำหน้าที่เป็นระนาบควบคุมที่สำคัญที่เชื่อมช่องว่างระหว่างโทโพโลยีฮาร์ดแวร์ที่ซับซ้อนของระบบ NVIDIA Grace Blackwell NVL72 และความต้องการของแพลตฟอร์มการจัดการเวิร์กโหลด เช่น Slurm และ NVIDIA Run:ai โดยจะให้ความเข้าใจเชิงลึกและเป็นธรรมชาติของโดเมน NVLink และ IMEX โดยการแปลความสัมพันธ์ของฮาร์ดแวร์ทางกายภาพให้เป็นตัวระบุเชิงตรรกะที่ตัวจัดกำหนดการสามารถตีความได้ ด้วยการรวมมุมมองของ Cluster UUID และ Clique ID เข้าด้วยกัน Mission Control ช่วยให้การจัดวางงานที่แม่นยำและรับรู้โทโพโลยีเป็นไปได้ รับประกันการแยกเวิร์กโหลดที่เหมาะสม และรับประกันประสิทธิภาพที่สอดคล้องกันโดยการจัดเรียงการคำนวณให้เข้ากับโครงสร้างฮาร์ดแวร์พื้นฐานที่เหมาะสมที่สุด ซึ่งจะเปลี่ยนโครงสร้างพื้นฐานดิบให้เป็นโรงงาน AI ที่มีประสิทธิภาพและจัดการได้"
question: "อธิบายแนวคิดของ Cluster UUID และ Clique ID ในบริบทของโทโพโลยี NVLink และความสำคัญในการปฏิบัติงาน" answer: "Cluster UUID และ Clique ID เป็นตัวระบุระดับระบบที่เข้ารหัสตำแหน่งของ GPU ภายในเครือข่าย NVLink ทำให้โทโพโลยีที่ซับซ้อนสามารถเข้าใจได้โดยซอฟต์แวร์ระบบและตัวจัดกำหนดการ Cluster UUID สอดคล้องกับโดเมน NVLink ซึ่งบ่งชี้ว่าระบบและ GPU ของระบบอยู่ในแร็คทางกายภาพเดียวกันและใช้เครือข่าย NVLink ร่วมกัน สำหรับ Grace Blackwell NVL72 UUID นี้จะสอดคล้องกันทั่วทั้งแร็ค Clique ID ให้ความแตกต่างที่ละเอียดขึ้น โดยสอดคล้องกับพาร์ทิชัน NVLink GPU ที่ใช้ Clique ID เดียวกันจะอยู่ในพาร์ทิชันเชิงตรรกะเดียวกันภายในโดเมนนั้น ในทางปฏิบัติ Cluster UUID จะตอบว่า GPU ใดที่ใช้แร็คเดียวกันทางกายภาพและสามารถสื่อสารผ่าน NVLink ได้ ในขณะที่ Clique ID จะตอบว่า GPU ใดที่ใช้พาร์ทิชัน NVLink เดียวกัน และมีวัตถุประสงค์เพื่อสื่อสารร่วมกันสำหรับเวิร์กโหลดเฉพาะ ทำให้สามารถจัดสรรทรัพยากรและเพิ่มประสิทธิภาพได้ละเอียดยิ่งขึ้น"
question: "ปลั๊กอิน topology/block ของ Slurm ช่วยเพิ่มประสิทธิภาพการจัดวางเวิร์กโหลด AI บนระบบ NVL72 ได้อย่างไร?" answer: "ปลั๊กอิน topology/block ของ Slurm มีความสำคัญต่อการจัดวางเวิร์กโหลด AI บนระบบ NVIDIA NVL72 อย่างมีประสิทธิภาพ โดยทำให้ Slurm ตระหนักว่าโหนด (หรือ GPU) ไม่ได้เท่ากันทั้งหมดในแง่ของการเชื่อมต่อและประสิทธิภาพ บนระบบ Grace Blackwell NVL72 บล็อกของโหนดที่มีการเชื่อมต่อความหน่วงต่ำกว่าจะแมปโดยตรงกับพาร์ทิชัน NVLink ซึ่งเป็นกลุ่มของ GPU ที่ใช้เครือข่าย NVLink แบนด์วิดท์สูงร่วมกัน ด้วยการเปิดใช้งานปลั๊กอินนี้และเปิดเผยพาร์ทิชัน NVLink เป็น 'บล็อก' Slurm จะได้รับบริบทที่จำเป็นในการตัดสินใจจัดวางอย่างชาญฉลาด สิ่งนี้ทำให้มั่นใจได้ว่างานแบบหลาย GPU จะถูกจัดสรรให้อยู่ภายในพาร์ทิชัน NVLink เดียวกัน เพื่อรักษาประสิทธิภาพของ MNNVL ป้องกันการลดประสิทธิภาพที่อาจเกิดขึ้นได้หากงานกระจายไปอย่างไม่เลือกหน้าทั่วส่วนต่างๆ ของซูเปอร์คอมพิวเตอร์ที่เชื่อมต่อกันน้อยกว่า ช่วยให้การใช้ทรัพยากรมีประสิทธิภาพสูงสุดและประสิทธิภาพที่คาดการณ์ได้สำหรับงาน AI ที่ต้องการสูง"
question: "Multi-Node NVLink (MNNVL) คืออะไร และ IMEX อำนวยความสะดวกในการใช้หน่วยความจำ GPU แบบใช้ร่วมกันได้อย่างไร?" answer: "Multi-Node NVLink (MNNVL) เป็นเทคโนโลยีหลักที่ช่วยให้ GPU ทั่วทั้งโหนดประมวลผลต่างๆ ภายในระบบระดับแร็คสามารถสื่อสารกันได้โดยตรงด้วยแบนด์วิดท์สูงและความหน่วงต่ำ ซึ่งจำเป็นสำหรับการปรับขนาดโมเดล AI ขนาดใหญ่ MNNVL ช่วยให้โมเดลการเขียนโปรแกรมหน่วยความจำที่ใช้ร่วมกันระหว่าง GPU แบบกระจายเหล่านี้ ทำให้แอปพลิเคชันมองเห็นเป็นเครือข่าย GPU ขนาดใหญ่เพียงแห่งเดียว IMEX (Infiniband Memory Expansion) เป็นเทคโนโลยีพื้นฐานที่อำนวยความสะดวกใน MNNVL ถาดประมวลผลที่รองรับ IMEX ได้รับการออกแบบมาเพื่อเปิดใช้งานหน่วยความจำ GPU ที่ใช้ร่วมกันระหว่างโหนดโดยใช้ประโยชน์จากเครือข่ายขั้นสูงของ NVIDIA ในขณะที่ MNNVL ทำให้โมเดลการเขียนโปรแกรมง่ายขึ้นสำหรับนักพัฒนา Mission Control มีบทบาทสำคัญเบื้องหลังเพื่อให้แน่ใจว่าบริการ IMEX ได้รับการจัดเตรียมอย่างถูกต้องและซิงโครไนซ์กับงาน MNNVL รับประกันว่าประโยชน์ของหน่วยความจำ GPU ที่ใช้ร่วมกันจะได้รับการตระหนักอย่างเต็มที่โดยไม่เปิดเผยความซับซ้อนพื้นฐานให้กับผู้ใช้ปลายทาง"
question: "ประโยชน์หลักของการใช้การจัดกำหนดการที่รับรู้โทโพโลยีสำหรับเวิร์กโหลด AI บนซูเปอร์คอมพิวเตอร์ระดับแร็คคืออะไร?" answer: "การใช้การจัดกำหนดการที่รับรู้โทโพโลยีมีประโยชน์หลายประการสำหรับเวิร์กโหลด AI บนซูเปอร์คอมพิวเตอร์ระดับแร็ค ประการแรก ช่วยให้มั่นใจถึงประสิทธิภาพสูงสุดโดยการจัดวางงานอย่างชาญฉลาดบน GPU ที่มีการเชื่อมต่อแบนด์วิดท์สูงสุดและความหน่วงต่ำสุด ลดโอเวอร์เฮดการสื่อสารที่เกิดขึ้นในการฝึกอบรม AI แบบกระจาย ประการที่สอง ช่วยเพิ่มประสิทธิภาพการใช้ทรัพยากรโดยการป้องกันการกระจายงานอย่างไม่มีประสิทธิภาพทั่วส่วนฮาร์ดแวร์ที่แตกต่างกัน ซึ่งนำไปสู่ประสิทธิภาพที่คาดการณ์ได้มากขึ้นและปริมาณงานที่ดีขึ้น ประการที่สาม ช่วยให้การจัดการง่ายขึ้นสำหรับผู้ดูแลแพลตฟอร์มโดยการสรุปความซับซ้อนของฮาร์ดแวร์ในขณะที่ให้ขอบเขตการแยกที่ชัดเจนระหว่างเวิร์กโหลด ปรับปรุงความเสถียรและความปลอดภัยของระบบ สุดท้าย การจัดกำหนดการที่รับรู้โทโพโลยีจะเปลี่ยนฮาร์ดแวร์ที่ซับซ้อนให้เป็น 'โรงงาน AI' ที่มีประสิทธิภาพสูง ปรับขนาดได้ และจัดการได้ ซึ่งช่วยเร่งการวิจัยและพัฒนาในขณะที่ลดภาระการปฏิบัติงาน"
question: "NVIDIA Topograph มีส่วนช่วยในการค้นหาและจัดกำหนดการโทโพโลยีของซูเปอร์คอมพิวเตอร์โดยอัตโนมัติได้อย่างไร?" answer: "NVIDIA Topograph เป็นองค์ประกอบสำคัญที่ช่วยให้การค้นหาลำดับชั้นของ NVLink และการเชื่อมต่อที่ซับซ้อนภายในซูเปอร์คอมพิวเตอร์ระดับแร็คเป็นไปโดยอัตโนมัติ การค้นพบโดยอัตโนมัตินี้มีความสำคัญอย่างยิ่ง เนื่องจากการกำหนดค่าและบำรุงรักษาข้อมูลโทโพโลยีที่มีรายละเอียดสำหรับระบบขนาดใหญ่ด้วยตนเองนั้นมีแนวโน้มที่จะเกิดข้อผิดพลาดและใช้เวลานานมาก Topograph เปิดเผยข้อมูลโครงสร้างโดยละเอียดนี้ให้กับตัวจัดกำหนดการเวิร์กโหลด รวมถึง Slurm และ Kubernetes (ผ่าน NVIDIA DRA และ ComputeDomains) รวมถึง NVIDIA Run:ai ด้วยการให้มุมมองที่ถูกต้องและเรียลไทม์ของโทโพโลยีฮาร์ดแวร์แก่ตัวจัดกำหนดการ Topograph ช่วยให้สามารถตัดสินใจจัดวางได้อย่างชาญฉลาดและเป็นอัตโนมัติ สิ่งนี้ทำให้มั่นใจได้ว่าเวิร์กโหลด AI จะถูกจัดกำหนดการในลักษณะที่รับรู้โทโพโลยีตั้งแต่เริ่มต้น เพิ่มประสิทธิภาพการทำงาน การจัดสรรทรัพยากร และประสิทธิภาพโดยรวมของระบบ ซึ่งมีความสำคัญอย่างยิ่งต่อการสร้างและใช้งานโรงงาน AI ที่ปรับขนาดได้"


# ซูเปอร์คอมพิวเตอร์ AI ระดับแร็ค: จากฮาร์ดแวร์สู่การจัดกำหนดการที่รับรู้โทโพโลยี

![รูปภาพตกแต่ง](https://developer-blogs.nvidia.com/wp-content/uploads/2026/04/gtc25-tech-blog-dgx-gb300-1920x1080-1-1024x576.png)

ภูมิทัศน์ของปัญญาประดิษฐ์กำลังพัฒนาอย่างรวดเร็ว โดยต้องการโครงสร้างพื้นฐานการประมวลผลที่ทรงพลังและมีประสิทธิภาพมากขึ้นเรื่อยๆ ในแนวหน้าของการพัฒนานี้คือซูเปอร์คอมพิวเตอร์ระดับแร็ค ซึ่งออกแบบมาเพื่อเร่งเวิร์กโหลด AI และการประมวลผลประสิทธิภาพสูง (HPC) ที่ซับซ้อนที่สุด ระบบ NVIDIA GB200 NVL72 และ GB300 NVL72 ซึ่งสร้างขึ้นบนสถาปัตยกรรม Blackwell ที่เป็นนวัตกรรมใหม่ แสดงถึงความก้าวหน้าครั้งสำคัญในทิศทางนี้ โดยรวบรวมเครือข่าย GPU ขนาดใหญ่และเครือข่ายแบนด์วิดท์สูงเข้าเป็นหน่วยที่เหนียวแน่นและทรงพลัง

อย่างไรก็ตาม การปรับใช้ฮาร์ดแวร์ที่ซับซ้อนเช่นนี้ก่อให้เกิดความท้าทายที่ไม่เหมือนใคร: คุณจะแปลงโทโพโลยีทางกายภาพที่ซับซ้อนนี้ให้เป็นทรัพยากรที่จัดการได้ มีประสิทธิภาพ และเข้าถึงได้สำหรับนักพัฒนาและนักวิจัย AI ได้อย่างไร? ความไม่ตรงกันพื้นฐานระหว่างลักษณะลำดับชั้นของฮาร์ดแวร์ระดับแร็คกับการสรุปที่มักจะแบนราบของตัวจัดกำหนดการเวิร์กโหลดทั่วไปสร้างคอขวด นี่คือจุดที่สแต็กซอฟต์แวร์ที่ได้รับการตรวจสอบอย่าง NVIDIA Mission Control เข้ามามีบทบาท โดยเชื่อมช่องว่างเพื่อเปลี่ยนพลังการประมวลผลดิบให้เป็นโรงงาน AI ที่ราบรื่นและรับรู้โทโพโลยี

## ซูเปอร์คอมพิวเตอร์ AI ระดับแร็ครุ่นใหม่ด้วย NVIDIA Blackwell

ระบบ NVIDIA GB200 NVL72 และ GB300 NVL72 ซึ่งขับเคลื่อนโดยสถาปัตยกรรม NVIDIA Blackwell ที่ล้ำสมัย ไม่ใช่แค่การรวมกันของ GPU อันทรงพลังเท่านั้น แต่ยังเป็นซูเปอร์คอมพิวเตอร์ระดับแร็คแบบบูรณาการที่ออกแบบมาสำหรับอนาคตของ AI แต่ละระบบมีถาดประมวลผล 18 ถาดที่เชื่อมต่อกันอย่างแน่นหนา ก่อให้เกิดเครือข่าย GPU ขนาดใหญ่ที่เชื่อมต่อกันด้วยสวิตช์ NVLink ขั้นสูง ระบบเหล่านี้รองรับ NVIDIA Multi-Node NVLink (MNNVL) ซึ่งอำนวยความสะดวกในการสื่อสารความเร็วสูงพิเศษภายในแร็ค และรวมถึงถาดประมวลผลที่รองรับ IMEX ซึ่งช่วยให้หน่วยความจำ GPU สามารถใช้ร่วมกันได้ระหว่างโหนดต่างๆ สถาปัตยกรรมนี้มอบรากฐานที่เหนือชั้นสำหรับการฝึกอบรมและการปรับใช้โมเดล AI ขนาดใหญ่ ขยายขีดจำกัดของสิ่งที่เป็นไปได้ในสาขาต่างๆ ตั้งแต่การค้นพบทางวิทยาศาสตร์ไปจนถึงแอปพลิเคชัน AI สำหรับองค์กร

ปรัชญาการออกแบบที่อยู่เบื้องหลังระบบที่ใช้ Blackwell เหล่านี้มุ่งเน้นไปที่การเพิ่มปริมาณข้อมูลและลดความหน่วงระหว่าง [GPUs](/th/gpus) ที่เชื่อมต่อกัน สิ่งนี้ทำได้ผ่านสแต็กฮาร์ดแวร์ที่รวมเข้าด้วยกันอย่างหนาแน่น ซึ่งทุกส่วนประกอบได้รับการปรับให้เหมาะสมสำหรับประสิทธิภาพโดยรวม ทำให้มั่นใจได้ว่าเวิร์กโหลด AI สามารถปรับขนาดได้อย่างมีประสิทธิภาพโดยไม่เกิดคอขวดในการสื่อสาร

## การเชื่อมโยงโทโพโลยีฮาร์ดแวร์กับการสรุปของตัวจัดกำหนดการ AI

สำหรับสถาปนิก AI และผู้ดูแลแพลตฟอร์ม HPC ความท้าทายที่แท้จริงไม่ใช่แค่การได้มาและประกอบฮาร์ดแวร์ขั้นสูงนี้เท่านั้น แต่เป็นการนำไปใช้งานให้เป็นทรัพยากรที่ 'ปลอดภัย มีประสิทธิภาพ และใช้งานง่าย' ตัวจัดกำหนดการแบบเดิมมักจะทำงานภายใต้ข้อสันนิษฐานของกลุ่มทรัพยากรการประมวลผลที่เป็นเนื้อเดียวกันและแบนราบ กระบวนทัศน์นี้ไม่เหมาะกับซูเปอร์คอมพิวเตอร์ระดับแร็ค ซึ่งการออกแบบที่มีลำดับชั้นและอ่อนไหวต่อโทโพโลยีของเครือข่าย NVLink และโดเมน IMEX มีความสำคัญอย่างยิ่งต่อประสิทธิภาพ หากไม่มีการรวมที่เหมาะสม ตัวจัดกำหนดการอาจจัดวางงานในตำแหน่งที่ไม่เหมาะสมโดยไม่ได้ตั้งใจ ซึ่งนำไปสู่ประสิทธิภาพที่ลดลงและประสิทธิภาพที่ไม่สามารถคาดการณ์ได้

นี่คือช่องว่างที่ NVIDIA Mission Control ได้รับการออกแบบมาเพื่อเติมเต็ม ในฐานะระนาบควบคุมระดับแร็คที่แข็งแกร่งสำหรับระบบ NVIDIA Grace Blackwell NVL72, Mission Control มีความเข้าใจอย่างลึกซึ้งถึงโดเมน NVIDIA NVLink และ NVIDIA IMEX พื้นฐาน การรับรู้เชิงลึกนี้ช่วยให้สามารถรวมเข้ากับแพลตฟอร์มการจัดการเวิร์กโหลดยอดนิยม เช่น Slurm และ NVIDIA Run:ai ได้อย่างชาญฉลาด ด้วยการแปลโทโพโลยีฮาร์ดแวร์ที่ซับซ้อนให้เป็นข้อมูลอัจฉริยะในการจัดกำหนดการที่นำไปปฏิบัติได้ Mission Control ทำให้มั่นใจได้ว่าความสามารถขั้นสูงของสถาปัตยกรรม Blackwell จะถูกนำมาใช้ประโยชน์อย่างเต็มที่ เปลี่ยนการประกอบฮาร์ดแวร์ที่ซับซ้อนให้เป็นโรงงาน AI ที่ใช้งานได้อย่างแท้จริง ความสามารถนี้จะขยายไปยังแพลตฟอร์ม NVIDIA Vera Rubin ที่กำลังจะมาถึง รวมถึง NVIDIA Rubin NVL8 ซึ่งจะช่วยเสริมแนวทางที่สอดคล้องกันสำหรับโครงสร้างพื้นฐาน AI ประสิทธิภาพสูง

## การถอดรหัสโดเมน NVLink และพาร์ทิชันสำหรับเวิร์กโหลด AI

หัวใจสำคัญของการจัดกำหนดการที่รับรู้โทโพโลยีสำหรับระบบ Blackwell คือแนวคิดของโดเมน NVLink และพาร์ทิชัน ซึ่งถูกเปิดเผยผ่านตัวระบุระดับระบบ: **cluster UUID** และ **clique ID** ตัวระบุเหล่านี้มีความสำคัญอย่างยิ่งเพราะให้แผนที่เชิงตรรกะของเครือข่าย NVLink ทางกายภาพ ทำให้ซอฟต์แวร์ระบบและตัวจัดกำหนดการสามารถให้เหตุผลเกี่ยวกับตำแหน่งและการเชื่อมต่อของ GPU ได้

การแมปนั้นตรงไปตรงมาแต่ทรงพลัง:
-   **Cluster UUID** สอดคล้องกับ **โดเมน NVLink** Cluster UUID ที่ใช้ร่วมกันหมายความว่าระบบ—และ GPU ของระบบ—อยู่ในโดเมน NVLink หลักเดียวกันและเชื่อมต่อกันด้วยเครือข่าย NVLink ทั่วไป สำหรับ Grace Blackwell NVL72 UUID นี้จะสอดคล้องกันทั่วทั้งแร็ค ซึ่งบ่งชี้ถึงความใกล้ชิดทางกายภาพและการเชื่อมต่อแบนด์วิดท์สูงที่ใช้ร่วมกัน
-   **Clique ID** สอดคล้องกับ **พาร์ทิชัน NVLink** Clique ID มีความแตกต่างที่ละเอียดยิ่งขึ้น โดยระบุกลุ่มของ GPU ที่ใช้พาร์ทิชัน NVLink ภายในโดเมนที่ใหญ่กว่า เมื่อแร็คถูกแบ่งเป็นพาร์ทิชัน NVLink หลายพาร์ทิชัน Cluster UUID จะยังคงเหมือนเดิม แต่ Clique ID จะแยกแยะกลุ่มแบนด์วิดท์สูงขนาดเล็กที่แยกออกจากกันเหล่านี้

ความแตกต่างนี้มีความสำคัญอย่างยิ่งจากมุมมองการปฏิบัติงาน:
-   **Cluster UUID** ตอบคำถาม: *GPU ใดที่ใช้แร็คเดียวกันทางกายภาพและสามารถสื่อสารด้วย NVLink ด้วยความเร็วสูงสุดได้?*
-   **Clique ID** ตอบคำถาม: *GPU ใดที่ใช้พาร์ทิชัน NVLink เดียวกัน และมีวัตถุประสงค์เพื่อสื่อสารร่วมกันสำหรับเวิร์กโหลดหรือระดับบริการที่กำหนด เพื่อให้มั่นใจถึงประสิทธิภาพสูงสุดสำหรับงานแบบขนานสูง?*

ตัวระบุเหล่านี้เป็นส่วนเชื่อมต่อที่ช่วยให้แพลตฟอร์มเช่น Slurm, Kubernetes และ NVIDIA Run:ai สามารถจัดเรียงการจัดวางงาน การแยก และการรับประกันประสิทธิภาพให้สอดคล้องกับโครงสร้างที่แท้จริงของเครือข่าย NVLink ทั้งหมดโดยไม่เปิดเผยความซับซ้อนของฮาร์ดแวร์พื้นฐานโดยตรงต่อผู้ใช้ปลายทาง NVIDIA Mission Control ให้มุมมองส่วนกลางของตัวระบุเหล่านี้ ทำให้การจัดการง่ายขึ้น

| แนวคิดฮาร์ดแวร์      | ตัวระบุซอฟต์แวร์ | คำอธิบาย                                                                               |
| :-------------------- | :------------------ | :----------------------------------------------------------------------------------------- |
| โดเมน NVLink         | Cluster UUID        | ระบุ GPU ที่ใช้แร็คเดียวกันทางกายภาพ สามารถสื่อสาร NVLink ได้ทั่วทั้งแร็ค      |
| พาร์ทิชัน NVLink      | Clique ID           | แยกแยะ GPU ที่มีวัตถุประสงค์เพื่อสื่อสารร่วมกันภายในโดเมน NVLink สำหรับเวิร์กโหลดหรือระดับบริการเฉพาะ |

## การจัดกำหนดการ AI ที่รับรู้โทโพโลยีด้วย Slurm

สำหรับเวิร์กโหลดแบบหลายโหนดที่ทำงานบนระบบ NVL72 ที่ใช้ Blackwell **การจัดวางมีความสำคัญพอๆ กับจำนวน GPU ที่จัดสรร** งานฝึกอบรม AI ที่ต้องการ GPU 16 ตัว ตัวอย่างเช่น จะมีประสิทธิภาพที่แตกต่างกันอย่างมากหากกระจายไปทั่วโหนดหลายๆ โหนดที่เชื่อมต่อกันน้อยกว่า เทียบกับการจำกัดให้อยู่ภายในเครือข่าย NVLink แบนด์วิดท์สูงเพียงแห่งเดียว นี่คือจุดที่ **ปลั๊กอิน topology/block** ของ Slurm มีประโยชน์อย่างยิ่ง ช่วยให้ Slurm รับรู้ถึงความแตกต่างของการเชื่อมต่อที่ละเอียดอ่อนระหว่างโหนดต่างๆ

บนระบบ Grace Blackwell NVL72 บล็อกของโหนดที่มีการเชื่อมต่อความหน่วงต่ำกว่าจะสอดคล้องโดยตรงกับ **พาร์ทิชัน NVLink**—กลุ่มของ GPU ที่รวมกันด้วยเครือข่าย NVLink แบนด์วิดท์สูงเฉพาะ ด้วยการเปิดใช้งานปลั๊กอิน topology/block และเปิดเผยพาร์ทิชัน NVLink เหล่านี้เป็นบล็อกที่แตกต่างกัน Slurm จะได้รับข้อมูลอัจฉริยะเชิงบริบทที่จำเป็นในการตัดสินใจจัดกำหนดการที่เหนือกว่า โดยค่าเริ่มต้น งานจะถูกจัดวางอย่างชาญฉลาดภายในพาร์ทิชัน NVLink เดียว (หรือบล็อก) เพื่อรักษาประสิทธิภาพของ Multi-Node NVLink (MNNVL) ที่สำคัญ ในขณะที่งานขนาดใหญ่ยังคงสามารถขยายไปได้หลายบล็อกหากจำเป็น วิธีการนี้ทำให้ข้อแลกเปลี่ยนด้านประสิทธิภาพชัดเจน แทนที่จะเกิดจากความบังเอิญ

ในทางปฏิบัติ สิ่งนี้ช่วยให้กลยุทธ์การปรับใช้มีความยืดหยุ่น:
-   **หนึ่งบล็อก/กลุ่มโหนดต่อแร็ค**: การกำหนดค่านี้ช่วยให้ Slurm Quality of Service (QoS) สามารถจัดการการเข้าถึงพาร์ทิชันที่ใช้ร่วมกันทั่วทั้งแร็ค ซึ่งเหมาะสำหรับการจัดการทรัพยากรแบบรวม
-   **หลายบล็อก/กลุ่มโหนดต่อแร็ค**: วิธีการนี้เหมาะสำหรับการเสนอกลุ่ม GPU ขนาดเล็ก ที่แยกออกจากกัน และมีแบนด์วิดท์สูง ในที่นี้ แต่ละบล็อก/กลุ่มโหนดจะแมปกับพาร์ทิชัน Slurm เฉพาะ ซึ่งให้ระดับบริการที่แตกต่างกันอย่างมีประสิทธิภาพ ผู้ใช้สามารถใช้พาร์ทิชัน Slurm เฉพาะ โดยจะจัดวางงานของตนภายในพาร์ทิชัน NVLink ที่ต้องการโดยอัตโนมัติโดยไม่จำเป็นต้องเข้าใจความซับซ้อนของโครงสร้างพื้นฐาน การจัดการทรัพยากรขั้นสูงนี้มีความสำคัญอย่างยิ่งสำหรับองค์กรที่ต้องการขยายความคิดริเริ่มด้าน AI โดยสอดคล้องกับเป้าหมายที่กว้างขึ้นของการ [ขยาย AI สำหรับทุกคน](/th/scaling-ai-for-everyone)

## การเพิ่มประสิทธิภาพเวิร์กโหลด MNNVL ด้วย IMEX และ Mission Control

เวิร์กโหลด Multi-Node NVIDIA CUDA มักจะอาศัย MNNVL เพื่อให้ได้ประสิทธิภาพสูงสุด ทำให้ GPU บนถาดประมวลผลต่างๆ สามารถเข้าร่วมในโมเดลการเขียนโปรแกรมหน่วยความจำที่ใช้ร่วมกันได้อย่างสอดคล้องกัน จากมุมมองของนักพัฒนาแอปพลิเคชัน การใช้ MNNVL อาจดูเรียบง่ายอย่างน่าหลงใหล แต่การจัดการเบื้องหลังนั้นซับซ้อน

นี่คือจุดที่ NVIDIA Mission Control มีบทบาทสำคัญ ช่วยให้มั่นใจว่าส่วนประกอบที่สำคัญจะสอดคล้องกันอย่างสมบูรณ์เมื่อรันงาน MNNVL ด้วย Slurm โดยเฉพาะอย่างยิ่ง Mission Control รับประกันว่าบริการ IMEX—ซึ่งอำนวยความสะดวกในการใช้หน่วยความจำ GPU ร่วมกัน—จะทำงานบนชุดถาดประมวลผลที่ *แน่นอน* ที่เข้าร่วมในงาน MNNVL นอกจากนี้ยังช่วยให้มั่นใจว่า NVSwitch ที่จำเป็นได้รับการกำหนดค่าอย่างถูกต้องเพื่อสร้างและรักษาการเชื่อมต่อ MNNVL แบนด์วิดท์สูงเหล่านี้ การประสานงานนี้มีความสำคัญอย่างยิ่งต่อการให้ประสิทธิภาพที่สอดคล้องและคาดการณ์ได้ทั่วทั้งแร็ค หากไม่มีการจัดการอย่างชาญฉลาดของ Mission Control ประโยชน์ของ MNNVL และ IMEX จะเป็นเรื่องยากที่จะตระหนักและจัดการในวงกว้าง ซึ่งเน้นย้ำถึงความมุ่งมั่นของ NVIDIA ในการนำเสนอโซลูชั่นที่สมบูรณ์สำหรับ [GPUs](/th/gpus) ขั้นสูงและระบบนิเวศของมัน

## สู่โครงสร้างพื้นฐาน AI แบบอัตโนมัติและปรับขนาดได้

การผสานรวมสถาปัตยกรรม Blackwell ของ NVIDIA เข้ากับเลเยอร์ซอฟต์แวร์ที่ซับซ้อน เช่น Mission Control และ Topograph แสดงถึงขั้นตอนสำคัญในการสร้างโครงสร้างพื้นฐาน AI ที่เป็นอัตโนมัติและปรับขนาดได้อย่างแท้จริง NVIDIA Topograph จะทำให้การค้นพบ NVLink ที่ซับซ้อนและลำดับชั้นของการเชื่อมต่อเป็นไปโดยอัตโนมัติ โดยเปิดเผยข้อมูลที่สำคัญนี้ให้กับตัวจัดกำหนดการ เช่น Slurm, Kubernetes (ผ่าน NVIDIA DRA และ ComputeDomains) และ NVIDIA Run:ai สิ่งนี้ช่วยขจัดภาระงานในการจัดการโทโพโลยีด้วยตนเอง ทำให้องค์กรสามารถปรับใช้และปรับขนาดเวิร์กโหลด AI ได้อย่างมีประสิทธิภาพอย่างที่ไม่เคยมีมาก่อน

ด้วยการให้ตัวจัดกำหนดการมีความเข้าใจเชิงลึกและเรียลไทม์เกี่ยวกับโทโพโลยีฮาร์ดแวร์ แนวทางแบบบูรณาการนี้ทำให้มั่นใจได้ว่าแอปพลิเคชัน AI จะทำงานบนทรัพยากรที่เหมาะสมที่สุด ลดความหน่วงในการสื่อสารและเพิ่มปริมาณงานให้สูงสุด ผลลัพธ์ที่ได้คือโรงงาน AI ที่มีประสิทธิภาพสูง ยืดหยุ่น และจัดการได้ง่าย ซึ่งสามารถจัดการงานฝึกอบรมและอนุมาน AI ที่มีความต้องการสูงที่สุดได้ ในขณะที่โมเดล AI ยังคงเติบโตในความซับซ้อนและขนาด ความสามารถในการจัดการและจัดกำหนดการเวิร์กโหลดบนซูเปอร์คอมพิวเตอร์ระดับแร็คอย่างมีประสิทธิภาพจะเป็นสิ่งสำคัญยิ่งสำหรับการขับเคลื่อนนวัตกรรมและรักษาความได้เปรียบในการแข่งขัน กลยุทธ์แบบองค์รวมนี้เป็นรากฐานของอนาคตของ AI สำหรับองค์กร เปลี่ยนพลังการประมวลผลดิบให้เป็นซูเปอร์คอมพิวเตอร์ AI ที่ชาญฉลาด ตอบสนอง และมีประสิทธิภาพสูง

แหล่งที่มา

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

คำถามที่พบบ่อย

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

อัปเดตข่าวสาร

รับข่าว AI ล่าสุดในกล่องจดหมายของคุณ

แชร์