Rack-Scale AI სუპერკომპიუტერები: აპარატურიდან ტოპოლოგიის გათვალისწინებით დაგეგმვამდე

დეკორატიული გამოსახულება.

ხელოვნური ინტელექტის ლანდშაფტი სწრაფად ვითარდება, რაც მოითხოვს მუდმივად უფრო მძლავრ და ეფექტურ გამოთვლით ინფრასტრუქტურას. ამ ევოლუციის წინა პლანზე არიან rack-მასშტაბის სუპერკომპიუტერები, რომლებიც შექმნილია ყველაზე რთული AI და მაღალი წარმადობის გამოთვლითი (HPC) დატვირთვების დასაჩქარებლად. NVIDIA-ს GB200 NVL72 და GB300 NVL72 სისტემები, რომლებიც აგებულია ინოვაციურ Blackwell არქიტექტურაზე, წარმოადგენს მნიშვნელოვან ნახტომს ამ მიმართულებით, რაც აერთიანებს უზარმაზარ GPU ქსოვილებსა და მაღალი გამტარუნარიანობის ქსელებს თანმიმდევრულ, მძლავრ ერთეულებში.

თუმცა, ასეთი დახვეწილი აპარატურის განთავსება უნიკალურ გამოწვევას წარმოადგენს: როგორ გადააქციოთ ეს რთული ფიზიკური ტოპოლოგია მართვად, წარმად და ხელმისაწვდომ რესურსად AI დეველოპერებისა და მკვლევრებისთვის? rack-მასშტაბის აპარატურის იერარქიულ ბუნებასა და ტრადიციული დატვირთვის დამგეგმავების ხშირად გამარტივებულ აბსტრაქციებს შორის ფუნდამენტური შეუსაბამობა ქმნის ბლოკირებას. სწორედ აქ შემოდის დადასტურებული პროგრამული სტეკი, როგორიცაა NVIDIA Mission Control, რომელიც ხსნის ამ ხარვეზს ნედლეული გამოთვლითი სიმძლავრის უწყვეტ, ტოპოლოგიის გათვალისწინებით AI ქარხნად გარდასაქმნელად.

შემდეგი თაობის Rack-Scale AI სუპერკომპიუტერები NVIDIA Blackwell-თან ერთად

NVIDIA GB200 NVL72 და GB300 NVL72 სისტემები, რომლებიც აღჭურვილია უახლესი NVIDIA Blackwell არქიტექტურით, არ არის მხოლოდ მძლავრი GPU-ების კოლექციები; ისინი ინტეგრირებული, rack-მასშტაბის სუპერკომპიუტერებია, რომლებიც შექმნილია AI-ის მომავლისთვის. თითოეული სისტემა მოიცავს 18 მჭიდროდ დაკავშირებულ გამომთვლელ უჯრას, რომლებიც ქმნიან მასიურ GPU ქსოვილს, დაკავშირებულს მოწინავე NVLink კონცენტრატორებით. ეს სისტემები მხარს უჭერს NVIDIA Multi-Node NVLink (MNNVL)-ს, რაც ხელს უწყობს ულტრა მაღალსიჩქარიან კომუნიკაციას rack-ის შიგნით, და მოიცავს IMEX-ის მხარდაჭერის მქონე გამომთვლელ უჯრებს, რომლებიც საშუალებას აძლევს GPU მეხსიერების გაზიარებას კვანძებს შორის. ეს არქიტექტურა უზრუნველყოფს შეუდარებელ საფუძველს დიდი მასშტაბის AI მოდელების ტრენინგისა და განთავსებისთვის, რაც აფართოებს შესაძლებლობების საზღვრებს სფეროებში, დაწყებული სამეცნიერო აღმოჩენებიდან საწარმოს AI აპლიკაციებამდე.

ამ Blackwell-ზე დაფუძნებული სისტემების დიზაინის ფილოსოფია ფოკუსირებულია მონაცემთა გამტარუნარიანობის მაქსიმიზაციაზე და დაკავშირებულ gpus შორის შეყოვნების მინიმიზაციაზე. ეს მიიღწევა მჭიდროდ ინტეგრირებული აპარატურული სტეკის საშუალებით, სადაც ყოველი კომპონენტი ოპტიმიზებულია კოლექტიური წარმადობისთვის, რაც უზრუნველყოფს AI დატვირთვების ეფექტურ მასშტაბირებას კომუნიკაციის ბლოკირების გარეშე.

აპარატურული ტოპოლოგიის დაკავშირება AI დამგეგმავის აბსტრაქციებთან

AI არქიტექტორებისა და HPC პლატფორმის ოპერატორებისთვის რეალური გამოწვევა არ არის მხოლოდ ამ მოწინავე აპარატურის შეძენა და აწყობა, არამედ მისი ოპერაციონალიზაცია 'უსაფრთხო, წარმად და ადვილად გამოსაყენებელ' რესურსად. ტრადიციული დამგეგმავები ხშირად მოქმედებენ გამოთვლითი რესურსების ერთგვაროვანი, ბრტყელი აუზის ვარაუდით. ეს პარადიგმა არ არის შესაფერისი rack-მასშტაბის სუპერკომპიუტერებისთვის, სადაც NVLink ქსოვილებისა და IMEX დომენების იერარქიული და ტოპოლოგიისადმი მგრძნობიარე დიზაინი გადამწყვეტია წარმადობისთვის. სათანადო ინტეგრაციის გარეშე, დამგეგმავებმა შეიძლება უნებლიედ განათავსონ ამოცანები არაოპტიმალურ ადგილებში, რაც გამოიწვევს ეფექტურობის შემცირებას და არაპროგნოზირებად წარმადობას.

ეს არის ის ხარვეზი, რომლის შესავსადაც NVIDIA Mission Control არის შექმნილი. როგორც მძლავრი rack-მასშტაბის საკონტროლო პანელი NVIDIA Grace Blackwell NVL72 სისტემებისთვის, Mission Control-ს აქვს საბაზისო NVIDIA NVLink და NVIDIA IMEX დომენების მშობლიური გაგება. ეს ღრმა ცოდნა მას საშუალებას აძლევს ინტელექტუალურად ინტეგრირდეს პოპულარულ დატვირთვის მართვის პლატფორმებთან, როგორიცაა Slurm და NVIDIA Run:ai. რთული აპარატურული ტოპოლოგიების მოქმედებით დამგეგმავ ინტელექტად თარგმნით, Mission Control უზრუნველყოფს Blackwell-ის არქიტექტურის მოწინავე შესაძლებლობების სრულად გამოყენებას, გარდაქმნის დახვეწილ აპარატურულ შეკრებას ჭეშმარიტად ოპერაციულ AI ქარხნად. ეს შესაძლებლობა გავრცელდება მომავალ NVIDIA Vera Rubin პლატფორმაზე, მათ შორის NVIDIA Rubin NVL8-ზე, რაც კიდევ უფრო განამტკიცებს მაღალი წარმადობის AI ინფრასტრუქტურის თანმიმდევრულ მიდგომას.

NVLink დომენებისა და დანაყოფების გაშიფვრა AI დატვირთვებისთვის

Blackwell სისტემებისთვის ტოპოლოგიის გათვალისწინებით დაგეგმვის საფუძველში დევს NVLink დომენებისა და დანაყოფების ცნებები, რომლებიც ვლინდება სისტემის დონის იდენტიფიკატორების საშუალებით: cluster UUID და clique ID. ეს იდენტიფიკატორები გადამწყვეტია, რადგან ისინი უზრუნველყოფენ ფიზიკური NVLink ქსოვილის ლოგიკურ რუკას, რაც სისტემურ პროგრამულ უზრუნველყოფასა და დამგეგმავებს საშუალებას აძლევს, იმსჯელონ GPU-ის პოზიციისა და დაკავშირებადობის შესახებ.

ეს შეთავსება მარტივი, მაგრამ მძლავრია:

Cluster UUID შეესაბამება NVLink დომენს. საერთო cluster UUID ნიშნავს, რომ სისტემები — და მათი GPU-ები — ეკუთვნის იმავე საერთო NVLink დომენს და დაკავშირებულია საერთო NVLink ქსოვილით. Grace Blackwell NVL72-ისთვის, ეს UUID თანმიმდევრულია მთელ rack-ზე, რაც მიუთითებს ფიზიკურ სიახლოვესა და გაზიარებულ მაღალი გამტარუნარიანობის დაკავშირებადობაზე.
Clique ID გთავაზობთ უფრო დეტალურ განსხვავებას, რომელიც იდენტიფიცირებს GPU-ების ჯგუფებს, რომლებიც იზიარებენ NVLink Partition-ს უფრო დიდ დომენში. როდესაც rack ლოგიკურად იყოფა მრავალ NVLink დანაყოფად, cluster UUID უცვლელი რჩება, მაგრამ clique ID-ები განასხვავებს ამ უფრო მცირე, იზოლირებულ მაღალი გამტარუნარიანობის ჯგუფებს.

ეს განსხვავება სასიცოცხლოდ მნიშვნელოვანია ოპერაციული თვალსაზრისით:

Cluster UUID პასუხობს კითხვას: რომელი GPU-ები იზიარებენ ფიზიკურად rack-ს და შეუძლიათ NVLink კომუნიკაცია უმაღლესი სიჩქარით?
Clique ID პასუხობს: რომელი GPU-ები იზიარებენ NVLink Partition-ს და განკუთვნილია ერთად კომუნიკაციისთვის მოცემული დატვირთვის ან სერვისის დონისთვის, რაც უზრუნველყოფს ოპტიმალურ წარმადობას მაღალ პარალელური ამოცანებისთვის?

ეს იდენტიფიკატორები არის დამაკავშირებელი ქსოვილი, რომელიც საშუალებას აძლევს პლატფორმებს, როგორიცაა Slurm, Kubernetes და NVIDIA Run:ai, შეუსაბამონ სამუშაოების განთავსება, იზოლაცია და წარმადობის გარანტიები NVLink ქსოვილის რეალურ სტრუქტურას, ყოველგვარი ძირითადი აპარატურული სირთულეების უშუალოდ საბოლოო მომხმარებლებისთვის გამჟღავნების გარეშე. NVIDIA Mission Control უზრუნველყოფს ამ იდენტიფიკატორების ცენტრალიზებულ ხედვას, რაც ამარტივებს მართვას.

აპარატურული კონცეფცია	პროგრამული იდენტიფიკატორი	აღწერა
NVLink დომენი	Cluster UUID	იდენტიფიცირებს GPU-ებს, რომლებიც ფიზიკურად იზიარებენ rack-ს, შეუძლიათ rack-მასშტაბის NVLink კომუნიკაცია.
NVLink დანაყოფი	Clique ID	განასხვავებს GPU-ებს, რომლებიც განკუთვნილია ერთად კომუნიკაციისთვის NVLink დომენში კონკრეტული დატვირთვის ან სერვისის დონისთვის.

ტოპოლოგიის გათვალისწინებით AI დაგეგმვა Slurm-თან ერთად

Blackwell-ზე დაფუძნებულ NVL72 სისტემებზე გაშვებული მრავალკვანძოვანი დატვირთვებისთვის, განთავსება ისეთივე კრიტიკული ხდება, როგორც განაწილებული GPU-ების რაოდენობა. მაგალითად, 16 GPU-ს მოითხოვს AI ტრენინგის სამუშაო გაცილებით განსხვავებულად იმუშავებს, თუ ის შემთხვევით განაწილდება მრავალ ნაკლებად დაკავშირებულ კვანძზე, ვიდრე თუ ის მოთავსებულია ერთ, მაღალი გამტარუნარიანობის NVLink ქსოვილში. სწორედ აქ Slurm-ის topology/block plugin აღმოჩნდება შეუცვლელი, რაც Slurm-ს საშუალებას აძლევს ამოიცნოს კვანძებს შორის დაკავშირებადობის ნიუანსური განსხვავებები.

Grace Blackwell NVL72 სისტემებზე, კვანძების ბლოკები, რომლებიც ხასიათდება დაბალი შეყოვნების კავშირებით, პირდაპირ შეესაბამება NVLink დანაყოფებს — GPU-ების ჯგუფებს, რომლებიც გაერთიანებულია სპეციალური, მაღალი გამტარუნარიანობის NVLink ქსოვილით. ამ ტოპოლოგია/ბლოკის დანამატის ჩართვით და ამ NVLink დანაყოფების, როგორც განცალკევებული ბლოკების, წარდგენით, Slurm იძენს კონტექსტურ ინტელექტს, რომელიც საჭიროა უმაღლესი დაგეგმვის გადაწყვეტილებების მისაღებად. ნაგულისხმევად, სამუშაოები ინტელექტუალურად განთავსდება ერთ NVLink დანაყოფში (ან ბლოკში), რითაც შენარჩუნდება კრიტიკული Multi-Node NVLink (MNNVL) წარმადობა. მიუხედავად იმისა, რომ უფრო დიდ სამუშაოებს მაინც შეუძლიათ მრავალი ბლოკის მოცვა საჭიროების შემთხვევაში, ეს მიდგომა წარმადობის კომპრომისებს აშკარას ხდის, შემთხვევითის ნაცვლად.

პრაქტიკული თვალსაზრისით, ეს იძლევა მოქნილი განლაგების სტრატეგიების საშუალებას:

ერთი ბლოკი/კვანძების ჯგუფი თითო rack-ზე: ეს კონფიგურაცია Slurm Quality of Service (QoS)-ს საშუალებას აძლევს მართოს წვდომა გაზიარებულ, rack-მასშტაბის დანაყოფზე, რაც იდეალურია კონსოლიდირებული რესურსების მართვისთვის.
რამდენიმე ბლოკი/კვანძების ჯგუფი თითო rack-ზე: ეს მიდგომა იდეალურია უფრო მცირე, იზოლირებული, მაღალი გამტარუნარიანობის GPU აუზების შესათავაზებლად. აქ, თითოეული ბლოკი/კვანძების ჯგუფი შეესაბამება სპეციალურ Slurm დანაყოფს, რაც ეფექტურად უზრუნველყოფს განცალკევებულ სერვისის დონეს. მომხმარებლებს შეუძლიათ გამოიყენონ კონკრეტული Slurm დანაყოფი, ავტომატურად განათავსონ თავიანთი სამუშაოები განზრახ NVLink დანაყოფში, ძირითადი ქსოვილის სირთულეების გაგების საჭიროების გარეშე. რესურსების ეს მოწინავე მართვა გადამწყვეტია ორგანიზაციებისთვის, რომლებიც ცდილობენ გაზარდონ თავიანთი AI ინიციატივები, რაც შეესაბამება ყველასთვის AI-ის მასშტაბირების უფრო ფართო მიზანს.

MNNVL დატვირთვების ოპტიმიზაცია IMEX-ისა და Mission Control-ის საშუალებით

Multi-Node NVIDIA CUDA დატვირთვები ხშირად ეყრდნობა MNNVL-ს მაქსიმალური წარმადობის მისაღწევად, რაც საშუალებას აძლევს GPU-ებს სხვადასხვა გამომთვლელ უჯრაზე მონაწილეობა მიიღონ კოჰეზიურ, გაზიარებული მეხსიერების პროგრამირების მოდელში. აპლიკაციის დეველოპერის თვალსაზრისით, MNNVL-ის გამოყენება შეიძლება მოჩვენებითად მარტივი იყოს, მაგრამ ძირითადი ორკესტრირება რთულია.

სწორედ აქ NVIDIA Mission Control ასრულებს გადამწყვეტ როლს. ის უზრუნველყოფს, რომ კრიტიკული კომპონენტები იდეალურად იყოს შეთანხმებული Slurm-თან MNNVL სამუშაოების გაშვებისას. კონკრეტულად, Mission Control გარანტიას იძლევა, რომ IMEX სერვისი — რომელიც ხელს უწყობს გაზიარებულ GPU მეხსიერებას — მუშაობს გამომთვლელი უჯრების ზუსტ ნაკრებზე, რომლებიც მონაწილეობენ MNNVL სამუშაოში. ის ასევე უზრუნველყოფს, რომ საჭირო NVSwitches სწორად იყოს კონფიგურირებული ამ მაღალი გამტარუნარიანობის MNNVL კავშირების დასამყარებლად და შესანარჩუნებლად. ეს კოორდინაცია სასიცოცხლოდ მნიშვნელოვანია თანმიმდევრული, პროგნოზირებადი წარმადობის უზრუნველსაყოფად rack-ის მასშტაბით. Mission Control-ის ინტელექტუალური ორკესტრირების გარეშე, MNNVL-ისა და IMEX-ის უპირატესობების რეალიზება და მასშტაბურად მართვა რთული იქნებოდა, რაც ხაზს უსვამს NVIDIA-ს ერთგულებას მოწინავე gpus და მათი ეკოსისტემებისთვის სრულყოფილი გადაწყვეტილებების მიწოდებაში.

ავტომატიზებული, მასშტაბირებადი AI ინფრასტრუქტურისკენ

NVIDIA-ს Blackwell არქიტექტურის ინტეგრაცია დახვეწილ პროგრამულ ფენებთან, როგორიცაა Mission Control და Topograph, წარმოადგენს მნიშვნელოვან ნაბიჯს ჭეშმარიტად ავტომატიზებული და მასშტაბირებადი AI ინფრასტრუქტურის შესაქმნელად. NVIDIA Topograph ავტომატიზირებს რთული NVLink-ისა და ურთიერთკავშირის იერარქიის აღმოჩენას, რაც ამ სასიცოცხლო ინფორმაციას აწვდის დამგეგმავებს, როგორიცაა Slurm, Kubernetes (NVIDIA DRA-სა და ComputeDomains-ის მეშვეობით) და NVIDIA Run:ai. ეს გამორიცხავს ტოპოლოგიის მართვის ხელით შესრულების ზედმეტ დატვირთვას, რაც ორგანიზაციებს საშუალებას აძლევს განათავსონ და მასშტაბირება მოახდინონ AI დატვირთვებზე უპრეცედენტო ეფექტურობით.

დამგეგმავებისთვის აპარატურული ტოპოლოგიის ღრმა, რეალურ დროში გაგების მიწოდებით, ეს ინტეგრირებული მიდგომა უზრუნველყოფს, რომ AI აპლიკაციები მუშაობდეს ოპტიმალურ რესურსებზე, მინიმუმამდე დაიყვანოს კომუნიკაციის შეყოვნება და მაქსიმალურად გაზარდოს გამტარუნარიანობა. შედეგი არის მაღალი წარმადობის, მდგრადი და ადვილად სამართავი AI ქარხანა, რომელსაც შეუძლია გაუმკლავდეს ყველაზე მომთხოვნ AI ტრენინგისა და ინფერენციის ამოცანებს. რადგან AI მოდელები აგრძელებენ ზრდას სირთულესა და ზომაში, rack-მასშტაბის სუპერკომპიუტერებზე დატვირთვების ეფექტურად მართვისა და დაგეგმვის შესაძლებლობა უმნიშვნელოვანესი იქნება ინოვაციების წასახალისებლად და კონკურენტული უპირატესობის შესანარჩუნებლად. ეს ჰოლისტიკური სტრატეგია საფუძვლად უდევს საწარმოს AI-ის მომავალს, გარდაქმნის ნედლეულ გამოთვლით სიმძლავრეს ინტელექტუალურ, რეაგირებად და უაღრესად ეფექტურ AI სუპერკომპიუტერინგად.

ორიგინალი წყარო

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

ხშირად დასმული კითხვები

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

იყავით ინფორმირებული

მიიღეთ უახლესი AI სიახლეები ელფოსტაზე.

გაზიარება