title: "الحواسيب الفائقة للذكاء الاصطناعي على نطاق الرفوف: من الأجهزة إلى الجدولة الواعية بالبنية الطوبولوجية" slug: "running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling" date: "2026-04-08" lang: "ar" source: "https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/" category: "الذكاء الاصطناعي للمؤسسات" keywords:

أعباء عمل الذكاء الاصطناعي
الحواسيب الفائقة على نطاق الرفوف
NVIDIA Blackwell
NVLink
الجدولة الواعية بالبنية الطوبولوجية
Slurm
NVIDIA Mission Control
Multi-Node NVLink (MNNVL)
IMEX
شبكات وحدات معالجة الرسوميات
إدارة الموارد
الذكاء الاصطناعي للمؤسسات meta_description: "اكتشف كيف تمكّن الحواسيب الفائقة NVIDIA Blackwell، جنبًا إلى جنب مع Mission Control، الجدولة الواعية بالبنية الطوبولوجية لأعباء عمل الذكاء الاصطناعي، مما يحسن الأداء عبر نطاقات NVLink وIMEX." image: "/images/articles/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling.png" image_alt: "رف NVIDIA Grace Blackwell NVL72 يوضح نطاقات NVLink وIMEX للحواسيب الفائقة للذكاء الاصطناعي على نطاق الرفوف" quality_score: 94 content_score: 93 seo_score: 95 companies:
NVIDIA schema_type: "NewsArticle" reading_time: 7 faq:
question: "ما هي أنظمة NVIDIA GB200 وGB300 NVL72، وما هو الدور الذي تلعبه بنية Blackwell؟" answer: "تمثل أنظمة NVIDIA GB200 وGB300 NVL72 جيلًا جديدًا من الحواسيب الفائقة على نطاق الرفوف المصممة خصيصًا لأعباء عمل الذكاء الاصطناعي والحوسبة عالية الأداء (HPC) المتطلبة. تستفيد هذه الأنظمة من بنية NVIDIA Blackwell الرائدة، التي تدمج شبكات وحدات معالجة الرسوميات الضخمة مع شبكات النطاق الترددي العالي في وحدة واحدة مترابطة بإحكام. تم تصميم بنية Blackwell لتقديم أداء وكفاءة غير مسبوقين للتدريب والاستدلال، وتتميز بمحولات NVLink متقدمة، وMulti-Node NVLink (MNNVL) للاتصال بين وحدات معالجة الرسوميات، وصواني حوسبة تدعم IMEX تسهل ذاكرة وحدات معالجة الرسوميات المشتركة عبر عقد متعددة داخل الرف. يهدف هذا التصميم المتكامل إلى التغلب على قيود نشر وحدات معالجة الرسوميات التقليدية المرتبطة بالخادم، مما يوفر منصة سلسة وقابلة للتوسع لنماذج الذكاء الاصطناعي المعقدة."
question: "ما هو التحدي الرئيسي في جدولة أعباء عمل الذكاء الاصطناعي على هذه الحواسيب الفائقة المتقدمة على نطاق الرفوف؟" answer: "يكمن التحدي الأساسي في عدم التوافق الكبير بين البنية الطوبولوجية الفيزيائية الهرمية المعقدة للحواسيب الفائقة على نطاق الرفوف والتجريدات المبسطة غالبًا التي تقدمها مجدولات أعباء العمل التقليدية. بينما تتباهى أنظمة مثل NVIDIA GB200/GB300 NVL72 بشبكات NVLink متطورة ونطاقات IMEX، فإن المجدولين عادةً ما يرون مجموعة مسطحة من وحدات معالجة الرسوميات والعقد. يمكن أن يؤدي ذلك إلى تخصيص غير فعال للموارد، وأداء دون المستوى الأمثل بسبب توطين البيانات الضعيف أو اختناقات الاتصال، وزيادة التعقيد التشغيلي لمشغلي المنصات. بدون جدولة واعية بالبنية الطوبولوجية، لا يمكن الاستفادة بشكل كامل من المزايا المتأصلة للتكامل على نطاق الرفوف، مثل التوصيلات البينية عالية النطاق الترددي، لأعباء عمل الذكاء الاصطناعي."
question: "كيف يعالج NVIDIA Mission Control التعقيدات التشغيلية لجدولة الذكاء الاصطناعي على نطاق الرفوف؟" answer: "يعمل NVIDIA Mission Control كطبقة تحكم حاسمة تسد الفجوة بين البنية الطوبولوجية المعقدة لأجهزة أنظمة NVIDIA Grace Blackwell NVL72 واحتياجات منصات إدارة أعباء العمل مثل Slurm وNVIDIA Run:ai. يوفر فهمًا أصيلًا وعميقًا لنطاقات NVLink وIMEX، ويترجم العلاقات المادية للأجهزة إلى معرفات منطقية يمكن للمجدولين تفسيرها. من خلال مركزية عرض معرفات UUID للمجموعات (Cluster UUIDs) ومعرفات المجموعات الفرعية (Clique IDs)، يُمكِّن Mission Control من تحديد المواقع الدقيق للوظائف بشكل واعٍ بالبنية الطوبولوجية، ويضمن عزل أعباء العمل بشكل صحيح، ويضمن أداءً ثابتًا عن طريق مواءمة الحسابات مع النسيج الأساسي الأمثل للأجهزة. هذا يحول البنية التحتية الخام بفعالية إلى مصنع ذكاء اصطناعي فعال وقابل للإدارة."
question: "اشرح مفاهيم Cluster UUID وClique ID في سياق بنية NVLink الطوبولوجية وأهميتها التشغيلية." answer: "Cluster UUID وClique ID هما معرفان على مستوى النظام يقومان بترميز موقع وحدة معالجة الرسوميات (GPU) ضمن شبكة NVLink، مما يجعل البنية الطوبولوجية المعقدة مفهومة لبرامج النظام والمجدولين. يتوافق Cluster UUID مع نطاق NVLink، مما يشير إلى أن الأنظمة ووحدات معالجة الرسوميات الخاصة بها تنتمي إلى نفس الرف الفعلي وتتشارك شبكة NVLink مشتركة. بالنسبة لـ Grace Blackwell NVL72، يكون هذا UUID متسقًا عبر الرف بأكمله. يوفر Clique ID تمييزًا أدق، ويتوافق مع قسم NVLink. تنتمي وحدات معالجة الرسوميات التي تتشارك Clique ID إلى نفس التقسيم المنطقي ضمن هذا النطاق. من الناحية التشغيلية، يجيب Cluster UUID عن سؤال 'ما هي وحدات معالجة الرسوميات التي تتشارك رفًا ماديًا ويمكنها التواصل عبر NVLink؟'، بينما يجيب Clique ID عن سؤال 'ما هي وحدات معالجة الرسوميات التي تتشارك قسم NVLink والمخصصة للتواصل معًا لأعباء عمل محددة؟'، مما يتيح تخصيص الموارد وتحسين الأداء بدقة أكبر."
question: "كيف تعمل الإضافة topology/block في Slurm على تعزيز وضع أعباء عمل الذكاء الاصطناعي على أنظمة NVL72؟" answer: "تعد الإضافة topology/block في Slurm ضرورية لوضع أعباء عمل الذكاء الاصطناعي بكفاءة على أنظمة NVIDIA NVL72 من خلال جعل Slurm يدرك أن ليست كل العقد (أو وحدات معالجة الرسوميات) متساوية من حيث الاتصال والأداء. في أنظمة Grace Blackwell NVL72، تتطابق كتل العقد ذات الاتصالات ذات زمن الانتقال الأقل مباشرة مع أقسام NVLink، وهي مجموعات من وحدات معالجة الرسوميات تتشارك شبكة NVLink عالية النطاق الترددي. من خلال تمكين هذه الإضافة وكشف أقسام NVLink كـ 'كتل'، يكتسب Slurm السياق الضروري لاتخاذ قرارات وضع ذكية. يضمن هذا تخصيص الوظائف متعددة وحدات معالجة الرسوميات بشكل تفضيلي ضمن قسم NVLink واحد للحفاظ على أداء MNNVL، مما يمنع تدهور الأداء الذي قد يحدث إذا تم توزيع الوظائف بشكل عشوائي عبر أجزاء مختلفة وأقل اتصالًا من الحاسوب الفائق. يسمح ذلك بالاستخدام الأمثل للموارد والأداء المتوقع لمهام الذكاء الاصطناعي المتطلبة."
question: "ما هو Multi-Node NVLink (MNNVL)، وكيف يسهل IMEX ذاكرة وحدات معالجة الرسوميات المشتركة؟" answer: "Multi-Node NVLink (MNNVL) هي تقنية رئيسية تسمح لوحدات معالجة الرسوميات عبر عقد حوسبة مختلفة ضمن نظام على نطاق الرفوف بالتواصل مباشرة بنطاق ترددي عالٍ وزمن انتقال منخفض، وهو أمر ضروري لتوسيع نماذج الذكاء الاصطناعي الكبيرة. تُمكِّن MNNVL نموذج برمجة الذاكرة المشتركة عبر وحدات معالجة الرسوميات الموزعة هذه، مما يجعلها تظهر للتطبيقات كشبكة وحدات معالجة رسوميات واحدة ضخمة. IMEX (Infiniband Memory Expansion) هي التقنية الأساسية التي تسهل MNNVL. صواني الحوسبة التي تدعم IMEX مصممة لتمكين ذاكرة وحدات معالجة الرسوميات المشتركة عبر العقد من خلال الاستفادة من شبكات NVIDIA المتقدمة. بينما تبسط MNNVL نموذج البرمجة للمطورين، يلعب Mission Control دورًا حاسمًا وراء الكواليس لضمان توفير خدمات IMEX بشكل صحيح ومزامنتها مع وظائف MNNVL، مما يضمن تحقيق الفوائد الكاملة لذاكرة وحدات معالجة الرسوميات المشتركة دون الكشف عن التعقيدات الأساسية للمستخدم النهائي."
question: "ما هي الفوائد الرئيسية لتطبيق الجدولة الواعية بالبنية الطوبولوجية لأعباء عمل الذكاء الاصطناعي على الحواسيب الفائقة على نطاق الرفوف؟" answer: "يوفر تطبيق الجدولة الواعية بالبنية الطوبولوجية العديد من الفوائد الهامة لأعباء عمل الذكاء الاصطناعي على الحواسيب الفائقة على نطاق الرفوف. أولاً، يضمن الأداء الأمثل من خلال وضع الوظائف بذكاء على وحدات معالجة الرسوميات التي تتمتع بأعلى نطاق ترددي وأقل زمن انتقال للاتصالات، مما يقلل من النفقات العامة للاتصال المتأصلة في تدريب الذكاء الاصطناعي الموزع. ثانيًا، يعزز استخدام الموارد من خلال منع التوزيع غير الفعال للوظائف عبر قطاعات الأجهزة المتباينة، مما يؤدي إلى أداء أكثر قابلية للتنبؤ وإنتاجية أفضل. ثالثًا، يبسط الإدارة لمشغلي المنصات عن طريق تجريد تعقيدات الأجهزة مع توفير حدود عزل واضحة بين أعباء العمل، مما يحسن استقرار النظام وأمانه. في نهاية المطاف، تحول الجدولة الواعية بالبنية الطوبولوجية الأجهزة المعقدة إلى 'مصنع ذكاء اصطناعي' عالي الكفاءة، قابل للتوسع، وسهل الإدارة، مما يسرع البحث والتطوير مع تقليل العبء التشغيلي."
question: "كيف تساهم NVIDIA Topograph في الاكتشاف التلقائي وجدولة البنى الطوبولوجية للحواسيب الفائقة؟" answer: "تعد NVIDIA Topograph مكونًا حاسمًا يقوم بأتمتة اكتشاف التسلسل الهرمي المعقد لـ NVLink والترابط البيني داخل الحواسيب الفائقة على نطاق الرفوف. هذا الاكتشاف التلقائي ضروري لأن التكوين اليدوي وصيانة معلومات البنية الطوبولوجية التفصيلية للأنظمة واسعة النطاق سيكون عرضة للأخطاء ويستغرق وقتًا طويلاً للغاية. تكشف Topograph هذه المعلومات التفصيلية عن الشبكة لمجدولي أعباء العمل، بما في ذلك Slurm وKubernetes (من خلال NVIDIA DRA وComputeDomains)، وكذلك NVIDIA Run:ai. من خلال تزويد المجدولين بنظرة دقيقة وفي الوقت الفعلي للبنية الطوبولوجية للأجهزة، تمكنهم Topograph من اتخاذ قرارات وضع ذكية ومؤتمتة. يضمن هذا جدولة أعباء عمل الذكاء الاصطناعي بطريقة واعية بالبنية الطوبولوجية منذ البداية، مما يحسن الأداء وتخصيص الموارد وكفاءة النظام بشكل عام، وهو أمر بالغ الأهمية لبناء وتشغيل مصانع ذكاء اصطناعي قابلة للتوسع."

الحواسيب الفائقة للذكاء الاصطناعي على نطاق الرفوف: من الأجهزة إلى الجدولة الواعية بالبنية الطوبولوجية

Decorative image.

يتطور مشهد الذكاء الاصطناعي بسرعة، ويتطلب بنية تحتية حاسوبية أكثر قوة وكفاءة باستمرار. في طليعة هذا التطور توجد الحواسيب الفائقة على نطاق الرفوف، المصممة لتسريع أعباء عمل الذكاء الاصطناعي والحوسبة عالية الأداء (HPC) الأكثر تعقيدًا. تمثل أنظمة NVIDIA GB200 NVL72 وGB300 NVL72، المبنية على بنية Blackwell المبتكرة، قفزة كبيرة في هذا الاتجاه، حيث تجمع شبكات وحدات معالجة الرسوميات الضخمة وشبكات النطاق الترددي العالي في وحدات متماسكة وقوية.

ومع ذلك، فإن نشر مثل هذه الأجهزة المتطورة يطرح تحديًا فريدًا: كيف يمكنك تحويل هذه البنية الطوبولوجية الفيزيائية المعقدة إلى مورد قابل للإدارة وفعال ومتاح لمطوري وباحثي الذكاء الاصطناعي؟ يخلق عدم التوافق الأساسي بين الطبيعة الهرمية لأجهزة على نطاق الرفوف والتجريدات المسطحة غالبًا لمجدولي أعباء العمل التقليديين عنق زجاجة. هذا هو بالضبط المكان الذي تتدخل فيه مجموعة برامج معتمدة مثل NVIDIA Mission Control، لسد الفجوة وتحويل قوة الحوسبة الخام إلى مصنع ذكاء اصطناعي سلس وواعٍ بالبنية الطوبولوجية.

الجيل التالي من الحوسبة الفائقة للذكاء الاصطناعي على نطاق الرفوف مع NVIDIA Blackwell

إن أنظمة NVIDIA GB200 NVL72 وGB300 NVL72، المدعومة ببنية NVIDIA Blackwell المتطورة، ليست مجرد مجموعات من وحدات معالجة رسوميات قوية؛ بل هي حواسيب فائقة متكاملة على نطاق الرفوف مصممة لمستقبل الذكاء الاصطناعي. يتميز كل نظام بـ 18 صينية حوسبة مترابطة بإحكام، تشكل شبكة وحدات معالجة رسوميات ضخمة متصلة بمحولات NVLink متقدمة. تدعم هذه الأنظمة NVIDIA Multi-Node NVLink (MNNVL)، مما يسهل الاتصال فائق السرعة داخل الرف، وتتضمن صواني حوسبة تدعم IMEX التي تُمكِّن ذاكرة وحدات معالجة الرسوميات المشتركة عبر العقد. توفر هذه البنية أساسًا لا مثيل له لتدريب ونشر نماذج الذكاء الاصطناعي واسعة النطاق، مما يدفع حدود ما هو ممكن في مجالات تتراوح من الاكتشاف العلمي إلى تطبيقات الذكاء الاصطناعي للمؤسسات.

تركز فلسفة التصميم وراء هذه الأنظمة القائمة على Blackwell على زيادة إنتاجية البيانات وتقليل زمن الانتقال بين وحدات معالجة الرسوميات المترابطة. يتم تحقيق ذلك من خلال مجموعة أجهزة متكاملة بكثافة حيث يتم تحسين كل مكون للأداء الجماعي، مما يضمن إمكانية توسيع أعباء عمل الذكاء الاصطناعي بكفاءة دون الاصطدام باختناقات الاتصال.

سد الفجوة بين بنية الأجهزة الطوبولوجية وتجريدات مجدولي الذكاء الاصطناعي

بالنسبة لمهندسي الذكاء الاصطناعي ومشغلي منصات HPC، لا يكمن التحدي الحقيقي فقط في اقتناء وتجميع هذه الأجهزة المتقدمة، بل في تشغيلها لتصبح موردًا 'آمنًا وعالي الأداء وسهل الاستخدام'. غالبًا ما تعمل المجدولات التقليدية على افتراض وجود مجموعة متجانسة ومسطحة من موارد الحوسبة. هذا النموذج غير مناسب للحواسيب الفائقة على نطاق الرفوف، حيث تعد الطبيعة الهرمية والحساسة للبنية الطوبولوجية لشبكات NVLink ونطاقات IMEX أمرًا بالغ الأهمية للأداء. بدون التكامل المناسب، قد تضع المجدولات المهام عن غير قصد في مواقع غير مثالية، مما يؤدي إلى انخفاض الكفاءة وأداء لا يمكن التنبؤ به.

هذه هي الفجوة التي صمم NVIDIA Mission Control لسدها. كطبقة تحكم قوية على نطاق الرفوف لأنظمة NVIDIA Grace Blackwell NVL72، يمتلك Mission Control فهمًا أصيلًا للنطاقات الأساسية لـ NVIDIA NVLink وNVIDIA IMEX. يتيح هذا الوعي العميق التكامل الذكي مع منصات إدارة أعباء العمل الشائعة مثل Slurm وNVIDIA Run:ai. من خلال ترجمة البنى الطوبولوجية المعقدة للأجهزة إلى معلومات جدولة قابلة للتنفيذ، يضمن Mission Control الاستفادة الكاملة من القدرات المتقدمة لبنية Blackwell، مما يحول تجميعًا متطورًا للأجهزة إلى مصنع ذكاء اصطناعي عملي حقًا. سيمتد هذا القدرة إلى منصة NVIDIA Vera Rubin القادمة، بما في ذلك NVIDIA Rubin NVL8، مما يعزز نهجًا ثابتًا للبنية التحتية للذكاء الاصطناعي عالية الأداء.

فك تشفير نطاقات NVLink وأقسامها لأعباء عمل الذكاء الاصطناعي

في قلب الجدولة الواعية بالبنية الطوبولوجية لأنظمة Blackwell تكمن مفاهيم نطاقات NVLink وأقسامها، والتي يتم كشفها من خلال معرفات على مستوى النظام: cluster UUID و clique ID. هذه المعرفات حاسمة لأنها توفر خريطة منطقية لشبكة NVLink الفيزيائية، مما يسمح لبرامج النظام والمجدولين بالاستدلال على موقع وحدة معالجة الرسوميات واتصالها.

الخريطة بسيطة لكنها قوية:

Cluster UUID يتوافق مع نطاق NVLink. يشير Cluster UUID المشترك إلى أن الأنظمة — ووحدات معالجة الرسوميات الخاصة بها — تنتمي إلى نفس نطاق NVLink الشامل وتتصل بشبكة NVLink مشتركة. بالنسبة لـ Grace Blackwell NVL72، يكون هذا UUID متسقًا عبر الرف بأكمله، مما يشير إلى القرب المادي والاتصال المشترك عالي النطاق الترددي.
Clique ID يتوافق مع قسم NVLink. يوفر Clique ID تمييزًا أدق، حيث يحدد مجموعات وحدات معالجة الرسوميات التي تتشارك قسم NVLink داخل نطاق أكبر. عندما يتم تقسيم الرف منطقيًا إلى عدة أقسام NVLink، يظل Cluster UUID كما هو، ولكن معرفات Clique ID تميز هذه المجموعات الأصغر والمعزولة وعالية النطاق الترددي.

هذا التمييز حيوي من منظور تشغيلي:

يجيب Cluster UUID على السؤال: ما هي وحدات معالجة الرسوميات التي تتشارك رفًا ماديًا وقادرة على الاتصال عبر NVLink بأعلى السرعات؟
يجيب Clique ID على السؤال: ما هي وحدات معالجة الرسوميات التي تتشارك قسم NVLink والمخصصة للتواصل معًا لأعباء عمل معينة أو مستوى خدمة معين، مما يضمن الأداء الأمثل للمهام المتوازية للغاية؟

هذه المعرفات هي النسيج الرابط، الذي يمكن منصات مثل Slurm وKubernetes وNVIDIA Run:ai من مواءمة وضع الوظائف والعزل وضمانات الأداء مع الهيكل الفعلي لشبكة NVLink، كل ذلك دون الكشف عن تعقيدات الأجهزة الأساسية مباشرة للمستخدمين النهائيين. يوفر NVIDIA Mission Control عرضًا مركزيًا لهذه المعرفات، مما يبسط الإدارة.

مفهوم الأجهزة	المعرف البرمجي	الوصف
نطاق NVLink	Cluster UUID	يحدد وحدات معالجة الرسوميات التي تتشارك رفًا ماديًا، وقادرة على الاتصال عبر NVLink على مستوى الرف.
قسم NVLink	Clique ID	يميز وحدات معالجة الرسوميات المخصصة للتواصل معًا ضمن نطاق NVLink لأعباء عمل معينة أو مستوى خدمة معين.

جدولة الذكاء الاصطناعي الواعية بالبنية الطوبولوجية مع Slurm

بالنسبة لأعباء العمل متعددة العقد التي تعمل على أنظمة NVL72 القائمة على Blackwell، يصبح التحديد النقاطي بنفس أهمية العدد الهائل لوحدات معالجة الرسوميات المخصصة. على سبيل المثال، ستؤدي مهمة تدريب الذكاء الاصطناعي التي تتطلب 16 وحدة معالجة رسوميات أداءً مختلفًا تمامًا إذا تم توزيعها بشكل عشوائي عبر عدة عقد أقل اتصالًا مقارنةً بحصرها داخل شبكة NVLink واحدة عالية النطاق الترددي. هذا هو المكان الذي تثبت فيه الإضافة topology/block في Slurm أهميتها القصوى، حيث تسمح لـ Slurm بالتعرف على الفروق الدقيقة في الاتصال بين العقد.

في أنظمة Grace Blackwell NVL72، تتوافق كتل العقد التي تتميز باتصالات ذات زمن انتقال أقل مباشرة مع أقسام NVLink — مجموعات من وحدات معالجة الرسوميات التي تتحد بواسطة شبكة NVLink مخصصة وعالية النطاق الترددي. من خلال تمكين الإضافة topology/block وكشف أقسام NVLink هذه ككتل مميزة، يكتسب Slurm الذكاء السياقي المطلوب لاتخاذ قرارات جدولة متفوقة. بشكل افتراضي، يتم وضع الوظائف بذكاء داخل قسم NVLink واحد (أو كتلة)، وبالتالي الحفاظ على الأداء الحاسم لـ Multi-Node NVLink (MNNVL). بينما لا تزال الوظائف الأكبر حجمًا يمكن أن تمتد عبر كتل متعددة إذا لزم الأمر، فإن هذا النهج يجعل المفاضلات في الأداء واضحة، بدلاً من أن تكون عرضية.

من الناحية العملية، يتيح هذا استراتيجيات نشر مرنة:

كتلة/مجموعة عقدة واحدة لكل رف: يتيح هذا التكوين لـ Slurm Quality of Service (QoS) إدارة الوصول إلى القسم المشترك على مستوى الرف، وهو مثالي لإدارة الموارد الموحدة.
كتل/مجموعات عقد متعددة لكل رف: هذا النهج مثالي لتقديم مجموعات وحدات معالجة رسوميات أصغر ومعزولة وعالية النطاق الترددي. هنا، تتطابق كل كتلة/مجموعة عقدة مع قسم Slurm مخصص، مما يوفر بشكل فعال مستوى خدمة مميزًا. يمكن للمستخدمين بعد ذلك الاستفادة من قسم Slurm محدد، مما يؤدي تلقائيًا إلى وضع وظائفهم ضمن قسم NVLink المقصود دون الحاجة إلى فهم تعقيدات الشبكة الأساسية. تعد إدارة الموارد المتقدمة هذه حاسمة للمؤسسات التي تتطلع إلى توسيع مبادرات الذكاء الاصطناعي الخاصة بها، وتتوافق مع الهدف الأوسع لـ توسيع نطاق الذكاء الاصطناعي للجميع.

تحسين أعباء عمل MNNVL باستخدام IMEX وMission Control

غالبًا ما تعتمد أعباء عمل Multi-Node NVIDIA CUDA على MNNVL لتحقيق أقصى أداء، مما يُمكِّن وحدات معالجة الرسوميات على صواني حوسبة مختلفة من المشاركة في نموذج برمجة ذاكرة مشتركة ومتماسك. من منظور مطور التطبيقات، قد يبدو استخدام MNNVL بسيطًا بشكل خادع، لكن التنسيق الأساسي معقد.

هذا هو المكان الذي يلعب فيه NVIDIA Mission Control دورًا محوريًا. يضمن أن المكونات الحيوية تتوافق تمامًا عند تشغيل وظائف MNNVL مع Slurm. على وجه التحديد، يضمن Mission Control أن خدمة IMEX — التي تسهل ذاكرة وحدات معالجة الرسوميات المشتركة — تعمل على المجموعة المحددة من صواني الحوسبة المشاركة في مهمة MNNVL. كما يضمن تكوين NVSwitches الضرورية بشكل صحيح لإنشاء والحفاظ على اتصالات MNNVL عالية النطاق الترددي هذه. هذا التنسيق حيوي لتوفير أداء ثابت ويمكن التنبؤ به عبر الرف. بدون التنسيق الذكي لـ Mission Control، سيكون من الصعب تحقيق فوائد MNNVL وIMEX وإدارتها على نطاق واسع، مما يسلط الضوء على التزام NVIDIA بتقديم حلول كاملة لوحدات معالجة الرسوميات المتقدمة وأنظمتها البيئية.

نحو بنية تحتية مؤتمتة وقابلة للتوسع للذكاء الاصطناعي

يمثل دمج بنية NVIDIA Blackwell مع طبقات برامج متطورة مثل Mission Control وTopograph خطوة مهمة نحو إنشاء بنية تحتية للذكاء الاصطناعي مؤتمتة وقابلة للتوسع حقًا. يقوم NVIDIA Topograph بأتمتة اكتشاف التسلسل الهرمي المعقد لـ NVLink والترابط البيني، ويكشف هذه المعلومات الحيوية للمجدولين مثل Slurm وKubernetes (من خلال NVIDIA DRA وComputeDomains)، وNVIDIA Run:ai. يلغي هذا النفقات العامة اليدوية لإدارة البنية الطوبولوجية، مما يسمح للمؤسسات بنشر وتوسيع نطاق أعباء عمل الذكاء الاصطناعي بكفاءة غير مسبوقة.

من خلال تزويد المجدولين بفهم عميق وفي الوقت الفعلي للبنية الطوبولوجية للأجهزة، يضمن هذا النهج المتكامل تشغيل تطبيقات الذكاء الاصطناعي على الموارد المثلى، مما يقلل من زمن انتقال الاتصال ويزيد من الإنتاجية. والنتيجة هي مصنع ذكاء اصطناعي عالي الأداء، ومرن، وسهل الإدارة قادر على التعامل مع مهام تدريب الذكاء الاصطناعي والاستدلال الأكثر تطلبًا. مع استمرار نماذج الذكاء الاصطناعي في النمو في التعقيد والحجم، ستكون القدرة على إدارة وجدولة أعباء العمل بفعالية على الحواسيب الفائقة على نطاق الرفوف أمرًا بالغ الأهمية لدفع الابتكار والحفاظ على الميزة التنافسية. تدعم هذه الاستراتيجية الشاملة مستقبل الذكاء الاصطناعي للمؤسسات، وتحول قوة الحوسبة الخام إلى حوسبة فائقة للذكاء الاصطناعي ذكية، ومتجاوبة، وعالية الكفاءة.

المصدر الأصلي

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

الأسئلة الشائعة

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

ابقَ على اطلاع

احصل على آخر أخبار الذكاء الاصطناعي في بريدك.