title: "الحواسيب الفائقة للذكاء الاصطناعي على نطاق الرفوف: من الأجهزة إلى الجدولة الواعية بالبنية الطوبولوجية" slug: "running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling" date: "2026-04-08" lang: "ar" source: "https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/" category: "الذكاء الاصطناعي للمؤسسات" keywords:
- أعباء عمل الذكاء الاصطناعي
- الحواسيب الفائقة على نطاق الرفوف
- NVIDIA Blackwell
- NVLink
- الجدولة الواعية بالبنية الطوبولوجية
- Slurm
- NVIDIA Mission Control
- Multi-Node NVLink (MNNVL)
- IMEX
- شبكات وحدات معالجة الرسوميات
- إدارة الموارد
- الذكاء الاصطناعي للمؤسسات meta_description: "اكتشف كيف تمكّن الحواسيب الفائقة NVIDIA Blackwell، جنبًا إلى جنب مع Mission Control، الجدولة الواعية بالبنية الطوبولوجية لأعباء عمل الذكاء الاصطناعي، مما يحسن الأداء عبر نطاقات NVLink وIMEX." image: "/images/articles/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling.png" image_alt: "رف NVIDIA Grace Blackwell NVL72 يوضح نطاقات NVLink وIMEX للحواسيب الفائقة للذكاء الاصطناعي على نطاق الرفوف" quality_score: 94 content_score: 93 seo_score: 95 companies:
- NVIDIA schema_type: "NewsArticle" reading_time: 7 faq:
- question: "ما هي أنظمة NVIDIA GB200 وGB300 NVL72، وما هو الدور الذي تلعبه بنية Blackwell؟" answer: "تمثل أنظمة NVIDIA GB200 وGB300 NVL72 جيلًا جديدًا من الحواسيب الفائقة على نطاق الرفوف المصممة خصيصًا لأعباء عمل الذكاء الاصطناعي والحوسبة عالية الأداء (HPC) المتطلبة. تستفيد هذه الأنظمة من بنية NVIDIA Blackwell الرائدة، التي تدمج شبكات وحدات معالجة الرسوميات الضخمة مع شبكات النطاق الترددي العالي في وحدة واحدة مترابطة بإحكام. تم تصميم بنية Blackwell لتقديم أداء وكفاءة غير مسبوقين للتدريب والاستدلال، وتتميز بمحولات NVLink متقدمة، وMulti-Node NVLink (MNNVL) للاتصال بين وحدات معالجة الرسوميات، وصواني حوسبة تدعم IMEX تسهل ذاكرة وحدات معالجة الرسوميات المشتركة عبر عقد متعددة داخل الرف. يهدف هذا التصميم المتكامل إلى التغلب على قيود نشر وحدات معالجة الرسوميات التقليدية المرتبطة بالخادم، مما يوفر منصة سلسة وقابلة للتوسع لنماذج الذكاء الاصطناعي المعقدة."
- question: "ما هو التحدي الرئيسي في جدولة أعباء عمل الذكاء الاصطناعي على هذه الحواسيب الفائقة المتقدمة على نطاق الرفوف؟" answer: "يكمن التحدي الأساسي في عدم التوافق الكبير بين البنية الطوبولوجية الفيزيائية الهرمية المعقدة للحواسيب الفائقة على نطاق الرفوف والتجريدات المبسطة غالبًا التي تقدمها مجدولات أعباء العمل التقليدية. بينما تتباهى أنظمة مثل NVIDIA GB200/GB300 NVL72 بشبكات NVLink متطورة ونطاقات IMEX، فإن المجدولين عادةً ما يرون مجموعة مسطحة من وحدات معالجة الرسوميات والعقد. يمكن أن يؤدي ذلك إلى تخصيص غير فعال للموارد، وأداء دون المستوى الأمثل بسبب توطين البيانات الضعيف أو اختناقات الاتصال، وزيادة التعقيد التشغيلي لمشغلي المنصات. بدون جدولة واعية بالبنية الطوبولوجية، لا يمكن الاستفادة بشكل كامل من المزايا المتأصلة للتكامل على نطاق الرفوف، مثل التوصيلات البينية عالية النطاق الترددي، لأعباء عمل الذكاء الاصطناعي."
- question: "كيف يعالج NVIDIA Mission Control التعقيدات التشغيلية لجدولة الذكاء الاصطناعي على نطاق الرفوف؟" answer: "يعمل NVIDIA Mission Control كطبقة تحكم حاسمة تسد الفجوة بين البنية الطوبولوجية المعقدة لأجهزة أنظمة NVIDIA Grace Blackwell NVL72 واحتياجات منصات إدارة أعباء العمل مثل Slurm وNVIDIA Run:ai. يوفر فهمًا أصيلًا وعميقًا لنطاقات NVLink وIMEX، ويترجم العلاقات المادية للأجهزة إلى معرفات منطقية يمكن للمجدولين تفسيرها. من خلال مركزية عرض معرفات UUID للمجموعات (Cluster UUIDs) ومعرفات المجموعات الفرعية (Clique IDs)، يُمكِّن Mission Control من تحديد المواقع الدقيق للوظائف بشكل واعٍ بالبنية الطوبولوجية، ويضمن عزل أعباء العمل بشكل صحيح، ويضمن أداءً ثابتًا عن طريق مواءمة الحسابات مع النسيج الأساسي الأمثل للأجهزة. هذا يحول البنية التحتية الخام بفعالية إلى مصنع ذكاء اصطناعي فعال وقابل للإدارة."
- question: "اشرح مفاهيم Cluster UUID وClique ID في سياق بنية NVLink الطوبولوجية وأهميتها التشغيلية." answer: "Cluster UUID وClique ID هما معرفان على مستوى النظام يقومان بترميز موقع وحدة معالجة الرسوميات (GPU) ضمن شبكة NVLink، مما يجعل البنية الطوبولوجية المعقدة مفهومة لبرامج النظام والمجدولين. يتوافق Cluster UUID مع نطاق NVLink، مما يشير إلى أن الأنظمة ووحدات معالجة الرسوميات الخاصة بها تنتمي إلى نفس الرف الفعلي وتتشارك شبكة NVLink مشتركة. بالنسبة لـ Grace Blackwell NVL72، يكون هذا UUID متسقًا عبر الرف بأكمله. يوفر Clique ID تمييزًا أدق، ويتوافق مع قسم NVLink. تنتمي وحدات معالجة الرسوميات التي تتشارك Clique ID إلى نفس التقسيم المنطقي ضمن هذا النطاق. من الناحية التشغيلية، يجيب Cluster UUID عن سؤال 'ما هي وحدات معالجة الرسوميات التي تتشارك رفًا ماديًا ويمكنها التواصل عبر NVLink؟'، بينما يجيب Clique ID عن سؤال 'ما هي وحدات معالجة الرسوميات التي تتشارك قسم NVLink والمخصصة للتواصل معًا لأعباء عمل محددة؟'، مما يتيح تخصيص الموارد وتحسين الأداء بدقة أكبر."
- question: "كيف تعمل الإضافة topology/block في Slurm على تعزيز وضع أعباء عمل الذكاء الاصطناعي على أنظمة NVL72؟" answer: "تعد الإضافة topology/block في Slurm ضرورية لوضع أعباء عمل الذكاء الاصطناعي بكفاءة على أنظمة NVIDIA NVL72 من خلال جعل Slurm يدرك أن ليست كل العقد (أو وحدات معالجة الرسوميات) متساوية من حيث الاتصال والأداء. في أنظمة Grace Blackwell NVL72، تتطابق كتل العقد ذات الاتصالات ذات زمن الانتقال الأقل مباشرة مع أقسام NVLink، وهي مجموعات من وحدات معالجة الرسوميات تتشارك شبكة NVLink عالية النطاق الترددي. من خلال تمكين هذه الإضافة وكشف أقسام NVLink كـ 'كتل'، يكتسب Slurm السياق الضروري لاتخاذ قرارات وضع ذكية. يضمن هذا تخصيص الوظائف متعددة وحدات معالجة الرسوميات بشكل تفضيلي ضمن قسم NVLink واحد للحفاظ على أداء MNNVL، مما يمنع تدهور الأداء الذي قد يحدث إذا تم توزيع الوظائف بشكل عشوائي عبر أجزاء مختلفة وأقل اتصالًا من الحاسوب الفائق. يسمح ذلك بالاستخدام الأمثل للموارد والأداء المتوقع لمهام الذكاء الاصطناعي المتطلبة."
- question: "ما هو Multi-Node NVLink (MNNVL)، وكيف يسهل IMEX ذاكرة وحدات معالجة الرسوميات المشتركة؟" answer: "Multi-Node NVLink (MNNVL) هي تقنية رئيسية تسمح لوحدات معالجة الرسوميات عبر عقد حوسبة مختلفة ضمن نظام على نطاق الرفوف بالتواصل مباشرة بنطاق ترددي عالٍ وزمن انتقال منخفض، وهو أمر ضروري لتوسيع نماذج الذكاء الاصطناعي الكبيرة. تُمكِّن MNNVL نموذج برمجة الذاكرة المشتركة عبر وحدات معالجة الرسوميات الموزعة هذه، مما يجعلها تظهر للتطبيقات كشبكة وحدات معالجة رسوميات واحدة ضخمة. IMEX (Infiniband Memory Expansion) هي التقنية الأساسية التي تسهل MNNVL. صواني الحوسبة التي تدعم IMEX مصممة لتمكين ذاكرة وحدات معالجة الرسوميات المشتركة عبر العقد من خلال الاستفادة من شبكات NVIDIA المتقدمة. بينما تبسط MNNVL نموذج البرمجة للمطورين، يلعب Mission Control دورًا حاسمًا وراء الكواليس لضمان توفير خدمات IMEX بشكل صحيح ومزامنتها مع وظائف MNNVL، مما يضمن تحقيق الفوائد الكاملة لذاكرة وحدات معالجة الرسوميات المشتركة دون الكشف عن التعقيدات الأساسية للمستخدم النهائي."
- question: "ما هي الفوائد الرئيسية لتطبيق الجدولة الواعية بالبنية الطوبولوجية لأعباء عمل الذكاء الاصطناعي على الحواسيب الفائقة على نطاق الرفوف؟" answer: "يوفر تطبيق الجدولة الواعية بالبنية الطوبولوجية العديد من الفوائد الهامة لأعباء عمل الذكاء الاصطناعي على الحواسيب الفائقة على نطاق الرفوف. أولاً، يضمن الأداء الأمثل من خلال وضع الوظائف بذكاء على وحدات معالجة الرسوميات التي تتمتع بأعلى نطاق ترددي وأقل زمن انتقال للاتصالات، مما يقلل من النفقات العامة للاتصال المتأصلة في تدريب الذكاء الاصطناعي الموزع. ثانيًا، يعزز استخدام الموارد من خلال منع التوزيع غير الفعال للوظائف عبر قطاعات الأجهزة المتباينة، مما يؤدي إلى أداء أكثر قابلية للتنبؤ وإنتاجية أفضل. ثالثًا، يبسط الإدارة لمشغلي المنصات عن طريق تجريد تعقيدات الأجهزة مع توفير حدود عزل واضحة بين أعباء العمل، مما يحسن استقرار النظام وأمانه. في نهاية المطاف، تحول الجدولة الواعية بالبنية الطوبولوجية الأجهزة المعقدة إلى 'مصنع ذكاء اصطناعي' عالي الكفاءة، قابل للتوسع، وسهل الإدارة، مما يسرع البحث والتطوير مع تقليل العبء التشغيلي."
- question: "كيف تساهم NVIDIA Topograph في الاكتشاف التلقائي وجدولة البنى الطوبولوجية للحواسيب الفائقة؟" answer: "تعد NVIDIA Topograph مكونًا حاسمًا يقوم بأتمتة اكتشاف التسلسل الهرمي المعقد لـ NVLink والترابط البيني داخل الحواسيب الفائقة على نطاق الرفوف. هذا الاكتشاف التلقائي ضروري لأن التكوين اليدوي وصيانة معلومات البنية الطوبولوجية التفصيلية للأنظمة واسعة النطاق سيكون عرضة للأخطاء ويستغرق وقتًا طويلاً للغاية. تكشف Topograph هذه المعلومات التفصيلية عن الشبكة لمجدولي أعباء العمل، بما في ذلك Slurm وKubernetes (من خلال NVIDIA DRA وComputeDomains)، وكذلك NVIDIA Run:ai. من خلال تزويد المجدولين بنظرة دقيقة وفي الوقت الفعلي للبنية الطوبولوجية للأجهزة، تمكنهم Topograph من اتخاذ قرارات وضع ذكية ومؤتمتة. يضمن هذا جدولة أعباء عمل الذكاء الاصطناعي بطريقة واعية بالبنية الطوبولوجية منذ البداية، مما يحسن الأداء وتخصيص الموارد وكفاءة النظام بشكل عام، وهو أمر بالغ الأهمية لبناء وتشغيل مصانع ذكاء اصطناعي قابلة للتوسع."
الحواسيب الفائقة للذكاء الاصطناعي على نطاق الرفوف: من الأجهزة إلى الجدولة الواعية بالبنية الطوبولوجية

يتطور مشهد الذكاء الاصطناعي بسرعة، ويتطلب بنية تحتية حاسوبية أكثر قوة وكفاءة باستمرار. في طليعة هذا التطور توجد الحواسيب الفائقة على نطاق الرفوف، المصممة لتسريع أعباء عمل الذكاء الاصطناعي والحوسبة عالية الأداء (HPC) الأكثر تعقيدًا. تمثل أنظمة NVIDIA GB200 NVL72 وGB300 NVL72، المبنية على بنية Blackwell المبتكرة، قفزة كبيرة في هذا الاتجاه، حيث تجمع شبكات وحدات معالجة الرسوميات الضخمة وشبكات النطاق الترددي العالي في وحدات متماسكة وقوية.
ومع ذلك، فإن نشر مثل هذه الأجهزة المتطورة يطرح تحديًا فريدًا: كيف يمكنك تحويل هذه البنية الطوبولوجية الفيزيائية المعقدة إلى مورد قابل للإدارة وفعال ومتاح لمطوري وباحثي الذكاء الاصطناعي؟ يخلق عدم التوافق الأساسي بين الطبيعة الهرمية لأجهزة على نطاق الرفوف والتجريدات المسطحة غالبًا لمجدولي أعباء العمل التقليديين عنق زجاجة. هذا هو بالضبط المكان الذي تتدخل فيه مجموعة برامج معتمدة مثل NVIDIA Mission Control، لسد الفجوة وتحويل قوة الحوسبة الخام إلى مصنع ذكاء اصطناعي سلس وواعٍ بالبنية الطوبولوجية.
الجيل التالي من الحوسبة الفائقة للذكاء الاصطناعي على نطاق الرفوف مع NVIDIA Blackwell
إن أنظمة NVIDIA GB200 NVL72 وGB300 NVL72، المدعومة ببنية NVIDIA Blackwell المتطورة، ليست مجرد مجموعات من وحدات معالجة رسوميات قوية؛ بل هي حواسيب فائقة متكاملة على نطاق الرفوف مصممة لمستقبل الذكاء الاصطناعي. يتميز كل نظام بـ 18 صينية حوسبة مترابطة بإحكام، تشكل شبكة وحدات معالجة رسوميات ضخمة متصلة بمحولات NVLink متقدمة. تدعم هذه الأنظمة NVIDIA Multi-Node NVLink (MNNVL)، مما يسهل الاتصال فائق السرعة داخل الرف، وتتضمن صواني حوسبة تدعم IMEX التي تُمكِّن ذاكرة وحدات معالجة الرسوميات المشتركة عبر العقد. توفر هذه البنية أساسًا لا مثيل له لتدريب ونشر نماذج الذكاء الاصطناعي واسعة النطاق، مما يدفع حدود ما هو ممكن في مجالات تتراوح من الاكتشاف العلمي إلى تطبيقات الذكاء الاصطناعي للمؤسسات.
تركز فلسفة التصميم وراء هذه الأنظمة القائمة على Blackwell على زيادة إنتاجية البيانات وتقليل زمن الانتقال بين وحدات معالجة الرسوميات المترابطة. يتم تحقيق ذلك من خلال مجموعة أجهزة متكاملة بكثافة حيث يتم تحسين كل مكون للأداء الجماعي، مما يضمن إمكانية توسيع أعباء عمل الذكاء الاصطناعي بكفاءة دون الاصطدام باختناقات الاتصال.
سد الفجوة بين بنية الأجهزة الطوبولوجية وتجريدات مجدولي الذكاء الاصطناعي
بالنسبة لمهندسي الذكاء الاصطناعي ومشغلي منصات HPC، لا يكمن التحدي الحقيقي فقط في اقتناء وتجميع هذه الأجهزة المتقدمة، بل في تشغيلها لتصبح موردًا 'آمنًا وعالي الأداء وسهل الاستخدام'. غالبًا ما تعمل المجدولات التقليدية على افتراض وجود مجموعة متجانسة ومسطحة من موارد الحوسبة. هذا النموذج غير مناسب للحواسيب الفائقة على نطاق الرفوف، حيث تعد الطبيعة الهرمية والحساسة للبنية الطوبولوجية لشبكات NVLink ونطاقات IMEX أمرًا بالغ الأهمية للأداء. بدون التكامل المناسب، قد تضع المجدولات المهام عن غير قصد في مواقع غير مثالية، مما يؤدي إلى انخفاض الكفاءة وأداء لا يمكن التنبؤ به.
هذه هي الفجوة التي صمم NVIDIA Mission Control لسدها. كطبقة تحكم قوية على نطاق الرفوف لأنظمة NVIDIA Grace Blackwell NVL72، يمتلك Mission Control فهمًا أصيلًا للنطاقات الأساسية لـ NVIDIA NVLink وNVIDIA IMEX. يتيح هذا الوعي العميق التكامل الذكي مع منصات إدارة أعباء العمل الشائعة مثل Slurm وNVIDIA Run:ai. من خلال ترجمة البنى الطوبولوجية المعقدة للأجهزة إلى معلومات جدولة قابلة للتنفيذ، يضمن Mission Control الاستفادة الكاملة من القدرات المتقدمة لبنية Blackwell، مما يحول تجميعًا متطورًا للأجهزة إلى مصنع ذكاء اصطناعي عملي حقًا. سيمتد هذا القدرة إلى منصة NVIDIA Vera Rubin القادمة، بما في ذلك NVIDIA Rubin NVL8، مما يعزز نهجًا ثابتًا للبنية التحتية للذكاء الاصطناعي عالية الأداء.
فك تشفير نطاقات NVLink وأقسامها لأعباء عمل الذكاء الاصطناعي
في قلب الجدولة الواعية بالبنية الطوبولوجية لأنظمة Blackwell تكمن مفاهيم نطاقات NVLink وأقسامها، والتي يتم كشفها من خلال معرفات على مستوى النظام: cluster UUID و clique ID. هذه المعرفات حاسمة لأنها توفر خريطة منطقية لشبكة NVLink الفيزيائية، مما يسمح لبرامج النظام والمجدولين بالاستدلال على موقع وحدة معالجة الرسوميات واتصالها.
الخريطة بسيطة لكنها قوية:
- Cluster UUID يتوافق مع نطاق NVLink. يشير Cluster UUID المشترك إلى أن الأنظمة — ووحدات معالجة الرسوميات الخاصة بها — تنتمي إلى نفس نطاق NVLink الشامل وتتصل بشبكة NVLink مشتركة. بالنسبة لـ Grace Blackwell NVL72، يكون هذا UUID متسقًا عبر الرف بأكمله، مما يشير إلى القرب المادي والاتصال المشترك عالي النطاق الترددي.
- Clique ID يتوافق مع قسم NVLink. يوفر Clique ID تمييزًا أدق، حيث يحدد مجموعات وحدات معالجة الرسوميات التي تتشارك قسم NVLink داخل نطاق أكبر. عندما يتم تقسيم الرف منطقيًا إلى عدة أقسام NVLink، يظل Cluster UUID كما هو، ولكن معرفات Clique ID تميز هذه المجموعات الأصغر والمعزولة وعالية النطاق الترددي.
هذا التمييز حيوي من منظور تشغيلي:
- يجيب Cluster UUID على السؤال: ما هي وحدات معالجة الرسوميات التي تتشارك رفًا ماديًا وقادرة على الاتصال عبر NVLink بأعلى السرعات؟
- يجيب Clique ID على السؤال: ما هي وحدات معالجة الرسوميات التي تتشارك قسم NVLink والمخصصة للتواصل معًا لأعباء عمل معينة أو مستوى خدمة معين، مما يضمن الأداء الأمثل للمهام المتوازية للغاية؟
هذه المعرفات هي النسيج الرابط، الذي يمكن منصات مثل Slurm وKubernetes وNVIDIA Run:ai من مواءمة وضع الوظائف والعزل وضمانات الأداء مع الهيكل الفعلي لشبكة NVLink، كل ذلك دون الكشف عن تعقيدات الأجهزة الأساسية مباشرة للمستخدمين النهائيين. يوفر NVIDIA Mission Control عرضًا مركزيًا لهذه المعرفات، مما يبسط الإدارة.
| مفهوم الأجهزة | المعرف البرمجي | الوصف |
|---|---|---|
| نطاق NVLink | Cluster UUID | يحدد وحدات معالجة الرسوميات التي تتشارك رفًا ماديًا، وقادرة على الاتصال عبر NVLink على مستوى الرف. |
| قسم NVLink | Clique ID | يميز وحدات معالجة الرسوميات المخصصة للتواصل معًا ضمن نطاق NVLink لأعباء عمل معينة أو مستوى خدمة معين. |
جدولة الذكاء الاصطناعي الواعية بالبنية الطوبولوجية مع Slurm
بالنسبة لأعباء العمل متعددة العقد التي تعمل على أنظمة NVL72 القائمة على Blackwell، يصبح التحديد النقاطي بنفس أهمية العدد الهائل لوحدات معالجة الرسوميات المخصصة. على سبيل المثال، ستؤدي مهمة تدريب الذكاء الاصطناعي التي تتطلب 16 وحدة معالجة رسوميات أداءً مختلفًا تمامًا إذا تم توزيعها بشكل عشوائي عبر عدة عقد أقل اتصالًا مقارنةً بحصرها داخل شبكة NVLink واحدة عالية النطاق الترددي. هذا هو المكان الذي تثبت فيه الإضافة topology/block في Slurm أهميتها القصوى، حيث تسمح لـ Slurm بالتعرف على الفروق الدقيقة في الاتصال بين العقد.
في أنظمة Grace Blackwell NVL72، تتوافق كتل العقد التي تتميز باتصالات ذات زمن انتقال أقل مباشرة مع أقسام NVLink — مجموعات من وحدات معالجة الرسوميات التي تتحد بواسطة شبكة NVLink مخصصة وعالية النطاق الترددي. من خلال تمكين الإضافة topology/block وكشف أقسام NVLink هذه ككتل مميزة، يكتسب Slurm الذكاء السياقي المطلوب لاتخاذ قرارات جدولة متفوقة. بشكل افتراضي، يتم وضع الوظائف بذكاء داخل قسم NVLink واحد (أو كتلة)، وبالتالي الحفاظ على الأداء الحاسم لـ Multi-Node NVLink (MNNVL). بينما لا تزال الوظائف الأكبر حجمًا يمكن أن تمتد عبر كتل متعددة إذا لزم الأمر، فإن هذا النهج يجعل المفاضلات في الأداء واضحة، بدلاً من أن تكون عرضية.
من الناحية العملية، يتيح هذا استراتيجيات نشر مرنة:
- كتلة/مجموعة عقدة واحدة لكل رف: يتيح هذا التكوين لـ Slurm Quality of Service (QoS) إدارة الوصول إلى القسم المشترك على مستوى الرف، وهو مثالي لإدارة الموارد الموحدة.
- كتل/مجموعات عقد متعددة لكل رف: هذا النهج مثالي لتقديم مجموعات وحدات معالجة رسوميات أصغر ومعزولة وعالية النطاق الترددي. هنا، تتطابق كل كتلة/مجموعة عقدة مع قسم Slurm مخصص، مما يوفر بشكل فعال مستوى خدمة مميزًا. يمكن للمستخدمين بعد ذلك الاستفادة من قسم Slurm محدد، مما يؤدي تلقائيًا إلى وضع وظائفهم ضمن قسم NVLink المقصود دون الحاجة إلى فهم تعقيدات الشبكة الأساسية. تعد إدارة الموارد المتقدمة هذه حاسمة للمؤسسات التي تتطلع إلى توسيع مبادرات الذكاء الاصطناعي الخاصة بها، وتتوافق مع الهدف الأوسع لـ توسيع نطاق الذكاء الاصطناعي للجميع.
تحسين أعباء عمل MNNVL باستخدام IMEX وMission Control
غالبًا ما تعتمد أعباء عمل Multi-Node NVIDIA CUDA على MNNVL لتحقيق أقصى أداء، مما يُمكِّن وحدات معالجة الرسوميات على صواني حوسبة مختلفة من المشاركة في نموذج برمجة ذاكرة مشتركة ومتماسك. من منظور مطور التطبيقات، قد يبدو استخدام MNNVL بسيطًا بشكل خادع، لكن التنسيق الأساسي معقد.
هذا هو المكان الذي يلعب فيه NVIDIA Mission Control دورًا محوريًا. يضمن أن المكونات الحيوية تتوافق تمامًا عند تشغيل وظائف MNNVL مع Slurm. على وجه التحديد، يضمن Mission Control أن خدمة IMEX — التي تسهل ذاكرة وحدات معالجة الرسوميات المشتركة — تعمل على المجموعة المحددة من صواني الحوسبة المشاركة في مهمة MNNVL. كما يضمن تكوين NVSwitches الضرورية بشكل صحيح لإنشاء والحفاظ على اتصالات MNNVL عالية النطاق الترددي هذه. هذا التنسيق حيوي لتوفير أداء ثابت ويمكن التنبؤ به عبر الرف. بدون التنسيق الذكي لـ Mission Control، سيكون من الصعب تحقيق فوائد MNNVL وIMEX وإدارتها على نطاق واسع، مما يسلط الضوء على التزام NVIDIA بتقديم حلول كاملة لوحدات معالجة الرسوميات المتقدمة وأنظمتها البيئية.
نحو بنية تحتية مؤتمتة وقابلة للتوسع للذكاء الاصطناعي
يمثل دمج بنية NVIDIA Blackwell مع طبقات برامج متطورة مثل Mission Control وTopograph خطوة مهمة نحو إنشاء بنية تحتية للذكاء الاصطناعي مؤتمتة وقابلة للتوسع حقًا. يقوم NVIDIA Topograph بأتمتة اكتشاف التسلسل الهرمي المعقد لـ NVLink والترابط البيني، ويكشف هذه المعلومات الحيوية للمجدولين مثل Slurm وKubernetes (من خلال NVIDIA DRA وComputeDomains)، وNVIDIA Run:ai. يلغي هذا النفقات العامة اليدوية لإدارة البنية الطوبولوجية، مما يسمح للمؤسسات بنشر وتوسيع نطاق أعباء عمل الذكاء الاصطناعي بكفاءة غير مسبوقة.
من خلال تزويد المجدولين بفهم عميق وفي الوقت الفعلي للبنية الطوبولوجية للأجهزة، يضمن هذا النهج المتكامل تشغيل تطبيقات الذكاء الاصطناعي على الموارد المثلى، مما يقلل من زمن انتقال الاتصال ويزيد من الإنتاجية. والنتيجة هي مصنع ذكاء اصطناعي عالي الأداء، ومرن، وسهل الإدارة قادر على التعامل مع مهام تدريب الذكاء الاصطناعي والاستدلال الأكثر تطلبًا. مع استمرار نماذج الذكاء الاصطناعي في النمو في التعقيد والحجم، ستكون القدرة على إدارة وجدولة أعباء العمل بفعالية على الحواسيب الفائقة على نطاق الرفوف أمرًا بالغ الأهمية لدفع الابتكار والحفاظ على الميزة التنافسية. تدعم هذه الاستراتيجية الشاملة مستقبل الذكاء الاصطناعي للمؤسسات، وتحول قوة الحوسبة الخام إلى حوسبة فائقة للذكاء الاصطناعي ذكية، ومتجاوبة، وعالية الكفاءة.
الأسئلة الشائعة
What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?
What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?
How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?
Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.
How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?
What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?
What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?
How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?
ابقَ على اطلاع
احصل على آخر أخبار الذكاء الاصطناعي في بريدك.
