Rack-Scale AI სუპერკომპიუტერები: აპარატურიდან ტოპოლოგიის გათვალისწინებით დაგეგმვამდე

ხელოვნური ინტელექტის ლანდშაფტი სწრაფად ვითარდება, რაც მოითხოვს მუდმივად უფრო მძლავრ და ეფექტურ გამოთვლით ინფრასტრუქტურას. ამ ევოლუციის წინა პლანზე არიან rack-მასშტაბის სუპერკომპიუტერები, რომლებიც შექმნილია ყველაზე რთული AI და მაღალი წარმადობის გამოთვლითი (HPC) დატვირთვების დასაჩქარებლად. NVIDIA-ს GB200 NVL72 და GB300 NVL72 სისტემები, რომლებიც აგებულია ინოვაციურ Blackwell არქიტექტურაზე, წარმოადგენს მნიშვნელოვან ნახტომს ამ მიმართულებით, რაც აერთიანებს უზარმაზარ GPU ქსოვილებსა და მაღალი გამტარუნარიანობის ქსელებს თანმიმდევრულ, მძლავრ ერთეულებში.
თუმცა, ასეთი დახვეწილი აპარატურის განთავსება უნიკალურ გამოწვევას წარმოადგენს: როგორ გადააქციოთ ეს რთული ფიზიკური ტოპოლოგია მართვად, წარმად და ხელმისაწვდომ რესურსად AI დეველოპერებისა და მკვლევრებისთვის? rack-მასშტაბის აპარატურის იერარქიულ ბუნებასა და ტრადიციული დატვირთვის დამგეგმავების ხშირად გამარტივებულ აბსტრაქციებს შორის ფუნდამენტური შეუსაბამობა ქმნის ბლოკირებას. სწორედ აქ შემოდის დადასტურებული პროგრამული სტეკი, როგორიცაა NVIDIA Mission Control, რომელიც ხსნის ამ ხარვეზს ნედლეული გამოთვლითი სიმძლავრის უწყვეტ, ტოპოლოგიის გათვალისწინებით AI ქარხნად გარდასაქმნელად.
შემდეგი თაობის Rack-Scale AI სუპერკომპიუტერები NVIDIA Blackwell-თან ერთად
NVIDIA GB200 NVL72 და GB300 NVL72 სისტემები, რომლებიც აღჭურვილია უახლესი NVIDIA Blackwell არქიტექტურით, არ არის მხოლოდ მძლავრი GPU-ების კოლექციები; ისინი ინტეგრირებული, rack-მასშტაბის სუპერკომპიუტერებია, რომლებიც შექმნილია AI-ის მომავლისთვის. თითოეული სისტემა მოიცავს 18 მჭიდროდ დაკავშირებულ გამომთვლელ უჯრას, რომლებიც ქმნიან მასიურ GPU ქსოვილს, დაკავშირებულს მოწინავე NVLink კონცენტრატორებით. ეს სისტემები მხარს უჭერს NVIDIA Multi-Node NVLink (MNNVL)-ს, რაც ხელს უწყობს ულტრა მაღალსიჩქარიან კომუნიკაციას rack-ის შიგნით, და მოიცავს IMEX-ის მხარდაჭერის მქონე გამომთვლელ უჯრებს, რომლებიც საშუალებას აძლევს GPU მეხსიერების გაზიარებას კვანძებს შორის. ეს არქიტექტურა უზრუნველყოფს შეუდარებელ საფუძველს დიდი მასშტაბის AI მოდელების ტრენინგისა და განთავსებისთვის, რაც აფართოებს შესაძლებლობების საზღვრებს სფეროებში, დაწყებული სამეცნიერო აღმოჩენებიდან საწარმოს AI აპლიკაციებამდე.
ამ Blackwell-ზე დაფუძნებული სისტემების დიზაინის ფილოსოფია ფოკუსირებულია მონაცემთა გამტარუნარიანობის მაქსიმიზაციაზე და დაკავშირებულ gpus შორის შეყოვნების მინიმიზაციაზე. ეს მიიღწევა მჭიდროდ ინტეგრირებული აპარატურული სტეკის საშუალებით, სადაც ყოველი კომპონენტი ოპტიმიზებულია კოლექტიური წარმადობისთვის, რაც უზრუნველყოფს AI დატვირთვების ეფექტურ მასშტაბირებას კომუნიკაციის ბლოკირების გარეშე.
აპარატურული ტოპოლოგიის დაკავშირება AI დამგეგმავის აბსტრაქციებთან
AI არქიტექტორებისა და HPC პლატფორმის ოპერატორებისთვის რეალური გამოწვევა არ არის მხოლოდ ამ მოწინავე აპარატურის შეძენა და აწყობა, არამედ მისი ოპერაციონალიზაცია 'უსაფრთხო, წარმად და ადვილად გამოსაყენებელ' რესურსად. ტრადიციული დამგეგმავები ხშირად მოქმედებენ გამოთვლითი რესურსების ერთგვაროვანი, ბრტყელი აუზის ვარაუდით. ეს პარადიგმა არ არის შესაფერისი rack-მასშტაბის სუპერკომპიუტერებისთვის, სადაც NVLink ქსოვილებისა და IMEX დომენების იერარქიული და ტოპოლოგიისადმი მგრძნობიარე დიზაინი გადამწყვეტია წარმადობისთვის. სათანადო ინტეგრაციის გარეშე, დამგეგმავებმა შეიძლება უნებლიედ განათავსონ ამოცანები არაოპტიმალურ ადგილებში, რაც გამოიწვევს ეფექტურობის შემცირებას და არაპროგნოზირებად წარმადობას.
ეს არის ის ხარვეზი, რომლის შესავსადაც NVIDIA Mission Control არის შექმნილი. როგორც მძლავრი rack-მასშტაბის საკონტროლო პანელი NVIDIA Grace Blackwell NVL72 სისტემებისთვის, Mission Control-ს აქვს საბაზისო NVIDIA NVLink და NVIDIA IMEX დომენების მშობლიური გაგება. ეს ღრმა ცოდნა მას საშუალებას აძლევს ინტელექტუალურად ინტეგრირდეს პოპულარულ დატვირთვის მართვის პლატფორმებთან, როგორიცაა Slurm და NVIDIA Run:ai. რთული აპარატურული ტოპოლოგიების მოქმედებით დამგეგმავ ინტელექტად თარგმნით, Mission Control უზრუნველყოფს Blackwell-ის არქიტექტურის მოწინავე შესაძლებლობების სრულად გამოყენებას, გარდაქმნის დახვეწილ აპარატურულ შეკრებას ჭეშმარიტად ოპერაციულ AI ქარხნად. ეს შესაძლებლობა გავრცელდება მომავალ NVIDIA Vera Rubin პლატფორმაზე, მათ შორის NVIDIA Rubin NVL8-ზე, რაც კიდევ უფრო განამტკიცებს მაღალი წარმადობის AI ინფრასტრუქტურის თანმიმდევრულ მიდგომას.
NVLink დომენებისა და დანაყოფების გაშიფვრა AI დატვირთვებისთვის
Blackwell სისტემებისთვის ტოპოლოგიის გათვალისწინებით დაგეგმვის საფუძველში დევს NVLink დომენებისა და დანაყოფების ცნებები, რომლებიც ვლინდება სისტემის დონის იდენტიფიკატორების საშუალებით: cluster UUID და clique ID. ეს იდენტიფიკატორები გადამწყვეტია, რადგან ისინი უზრუნველყოფენ ფიზიკური NVLink ქსოვილის ლოგიკურ რუკას, რაც სისტემურ პროგრამულ უზრუნველყოფასა და დამგეგმავებს საშუალებას აძლევს, იმსჯელონ GPU-ის პოზიციისა და დაკავშირებადობის შესახებ.
ეს შეთავსება მარტივი, მაგრამ მძლავრია:
- Cluster UUID შეესაბამება NVLink დომენს. საერთო cluster UUID ნიშნავს, რომ სისტემები — და მათი GPU-ები — ეკუთვნის იმავე საერთო NVLink დომენს და დაკავშირებულია საერთო NVLink ქსოვილით. Grace Blackwell NVL72-ისთვის, ეს UUID თანმიმდევრულია მთელ rack-ზე, რაც მიუთითებს ფიზიკურ სიახლოვესა და გაზიარებულ მაღალი გამტარუნარიანობის დაკავშირებადობაზე.
- Clique ID გთავაზობთ უფრო დეტალურ განსხვავებას, რომელიც იდენტიფიცირებს GPU-ების ჯგუფებს, რომლებიც იზიარებენ NVLink Partition-ს უფრო დიდ დომენში. როდესაც rack ლოგიკურად იყოფა მრავალ NVLink დანაყოფად, cluster UUID უცვლელი რჩება, მაგრამ clique ID-ები განასხვავებს ამ უფრო მცირე, იზოლირებულ მაღალი გამტარუნარიანობის ჯგუფებს.
ეს განსხვავება სასიცოცხლოდ მნიშვნელოვანია ოპერაციული თვალსაზრისით:
- Cluster UUID პასუხობს კითხვას: რომელი GPU-ები იზიარებენ ფიზიკურად rack-ს და შეუძლიათ NVLink კომუნიკაცია უმაღლესი სიჩქარით?
- Clique ID პასუხობს: რომელი GPU-ები იზიარებენ NVLink Partition-ს და განკუთვნილია ერთად კომუნიკაციისთვის მოცემული დატვირთვის ან სერვისის დონისთვის, რაც უზრუნველყოფს ოპტიმალურ წარმადობას მაღალ პარალელური ამოცანებისთვის?
ეს იდენტიფიკატორები არის დამაკავშირებელი ქსოვილი, რომელიც საშუალებას აძლევს პლატფორმებს, როგორიცაა Slurm, Kubernetes და NVIDIA Run:ai, შეუსაბამონ სამუშაოების განთავსება, იზოლაცია და წარმადობის გარანტიები NVLink ქსოვილის რეალურ სტრუქტურას, ყოველგვარი ძირითადი აპარატურული სირთულეების უშუალოდ საბოლოო მომხმარებლებისთვის გამჟღავნების გარეშე. NVIDIA Mission Control უზრუნველყოფს ამ იდენტიფიკატორების ცენტრალიზებულ ხედვას, რაც ამარტივებს მართვას.
| აპარატურული კონცეფცია | პროგრამული იდენტიფიკატორი | აღწერა |
|---|---|---|
| NVLink დომენი | Cluster UUID | იდენტიფიცირებს GPU-ებს, რომლებიც ფიზიკურად იზიარებენ rack-ს, შეუძლიათ rack-მასშტაბის NVLink კომუნიკაცია. |
| NVLink დანაყოფი | Clique ID | განასხვავებს GPU-ებს, რომლებიც განკუთვნილია ერთად კომუნიკაციისთვის NVLink დომენში კონკრეტული დატვირთვის ან სერვისის დონისთვის. |
ტოპოლოგიის გათვალისწინებით AI დაგეგმვა Slurm-თან ერთად
Blackwell-ზე დაფუძნებულ NVL72 სისტემებზე გაშვებული მრავალკვანძოვანი დატვირთვებისთვის, განთავსება ისეთივე კრიტიკული ხდება, როგორც განაწილებული GPU-ების რაოდენობა. მაგალითად, 16 GPU-ს მოითხოვს AI ტრენინგის სამუშაო გაცილებით განსხვავებულად იმუშავებს, თუ ის შემთხვევით განაწილდება მრავალ ნაკლებად დაკავშირებულ კვანძზე, ვიდრე თუ ის მოთავსებულია ერთ, მაღალი გამტარუნარიანობის NVLink ქსოვილში. სწორედ აქ Slurm-ის topology/block plugin აღმოჩნდება შეუცვლელი, რაც Slurm-ს საშუალებას აძლევს ამოიცნოს კვანძებს შორის დაკავშირებადობის ნიუანსური განსხვავებები.
Grace Blackwell NVL72 სისტემებზე, კვანძების ბლოკები, რომლებიც ხასიათდება დაბალი შეყოვნების კავშირებით, პირდაპირ შეესაბამება NVLink დანაყოფებს — GPU-ების ჯგუფებს, რომლებიც გაერთიანებულია სპეციალური, მაღალი გამტარუნარიანობის NVLink ქსოვილით. ამ ტოპოლოგია/ბლოკის დანამატის ჩართვით და ამ NVLink დანაყოფების, როგორც განცალკევებული ბლოკების, წარდგენით, Slurm იძენს კონტექსტურ ინტელექტს, რომელიც საჭიროა უმაღლესი დაგეგმვის გადაწყვეტილებების მისაღებად. ნაგულისხმევად, სამუშაოები ინტელექტუალურად განთავსდება ერთ NVLink დანაყოფში (ან ბლოკში), რითაც შენარჩუნდება კრიტიკული Multi-Node NVLink (MNNVL) წარმადობა. მიუხედავად იმისა, რომ უფრო დიდ სამუშაოებს მაინც შეუძლიათ მრავალი ბლოკის მოცვა საჭიროების შემთხვევაში, ეს მიდგომა წარმადობის კომპრომისებს აშკარას ხდის, შემთხვევითის ნაცვლად.
პრაქტიკული თვალსაზრისით, ეს იძლევა მოქნილი განლაგების სტრატეგიების საშუალებას:
- ერთი ბლოკი/კვანძების ჯგუფი თითო rack-ზე: ეს კონფიგურაცია Slurm Quality of Service (QoS)-ს საშუალებას აძლევს მართოს წვდომა გაზიარებულ, rack-მასშტაბის დანაყოფზე, რაც იდეალურია კონსოლიდირებული რესურსების მართვისთვის.
- რამდენიმე ბლოკი/კვანძების ჯგუფი თითო rack-ზე: ეს მიდგომა იდეალურია უფრო მცირე, იზოლირებული, მაღალი გამტარუნარიანობის GPU აუზების შესათავაზებლად. აქ, თითოეული ბლოკი/კვანძების ჯგუფი შეესაბამება სპეციალურ Slurm დანაყოფს, რაც ეფექტურად უზრუნველყოფს განცალკევებულ სერვისის დონეს. მომხმარებლებს შეუძლიათ გამოიყენონ კონკრეტული Slurm დანაყოფი, ავტომატურად განათავსონ თავიანთი სამუშაოები განზრახ NVLink დანაყოფში, ძირითადი ქსოვილის სირთულეების გაგების საჭიროების გარეშე. რესურსების ეს მოწინავე მართვა გადამწყვეტია ორგანიზაციებისთვის, რომლებიც ცდილობენ გაზარდონ თავიანთი AI ინიციატივები, რაც შეესაბამება ყველასთვის AI-ის მასშტაბირების უფრო ფართო მიზანს.
MNNVL დატვირთვების ოპტიმიზაცია IMEX-ისა და Mission Control-ის საშუალებით
Multi-Node NVIDIA CUDA დატვირთვები ხშირად ეყრდნობა MNNVL-ს მაქსიმალური წარმადობის მისაღწევად, რაც საშუალებას აძლევს GPU-ებს სხვადასხვა გამომთვლელ უჯრაზე მონაწილეობა მიიღონ კოჰეზიურ, გაზიარებული მეხსიერების პროგრამირების მოდელში. აპლიკაციის დეველოპერის თვალსაზრისით, MNNVL-ის გამოყენება შეიძლება მოჩვენებითად მარტივი იყოს, მაგრამ ძირითადი ორკესტრირება რთულია.
სწორედ აქ NVIDIA Mission Control ასრულებს გადამწყვეტ როლს. ის უზრუნველყოფს, რომ კრიტიკული კომპონენტები იდეალურად იყოს შეთანხმებული Slurm-თან MNNVL სამუშაოების გაშვებისას. კონკრეტულად, Mission Control გარანტიას იძლევა, რომ IMEX სერვისი — რომელიც ხელს უწყობს გაზიარებულ GPU მეხსიერებას — მუშაობს გამომთვლელი უჯრების ზუსტ ნაკრებზე, რომლებიც მონაწილეობენ MNNVL სამუშაოში. ის ასევე უზრუნველყოფს, რომ საჭირო NVSwitches სწორად იყოს კონფიგურირებული ამ მაღალი გამტარუნარიანობის MNNVL კავშირების დასამყარებლად და შესანარჩუნებლად. ეს კოორდინაცია სასიცოცხლოდ მნიშვნელოვანია თანმიმდევრული, პროგნოზირებადი წარმადობის უზრუნველსაყოფად rack-ის მასშტაბით. Mission Control-ის ინტელექტუალური ორკესტრირების გარეშე, MNNVL-ისა და IMEX-ის უპირატესობების რეალიზება და მასშტაბურად მართვა რთული იქნებოდა, რაც ხაზს უსვამს NVIDIA-ს ერთგულებას მოწინავე gpus და მათი ეკოსისტემებისთვის სრულყოფილი გადაწყვეტილებების მიწოდებაში.
ავტომატიზებული, მასშტაბირებადი AI ინფრასტრუქტურისკენ
NVIDIA-ს Blackwell არქიტექტურის ინტეგრაცია დახვეწილ პროგრამულ ფენებთან, როგორიცაა Mission Control და Topograph, წარმოადგენს მნიშვნელოვან ნაბიჯს ჭეშმარიტად ავტომატიზებული და მასშტაბირებადი AI ინფრასტრუქტურის შესაქმნელად. NVIDIA Topograph ავტომატიზირებს რთული NVLink-ისა და ურთიერთკავშირის იერარქიის აღმოჩენას, რაც ამ სასიცოცხლო ინფორმაციას აწვდის დამგეგმავებს, როგორიცაა Slurm, Kubernetes (NVIDIA DRA-სა და ComputeDomains-ის მეშვეობით) და NVIDIA Run:ai. ეს გამორიცხავს ტოპოლოგიის მართვის ხელით შესრულების ზედმეტ დატვირთვას, რაც ორგანიზაციებს საშუალებას აძლევს განათავსონ და მასშტაბირება მოახდინონ AI დატვირთვებზე უპრეცედენტო ეფექტურობით.
დამგეგმავებისთვის აპარატურული ტოპოლოგიის ღრმა, რეალურ დროში გაგების მიწოდებით, ეს ინტეგრირებული მიდგომა უზრუნველყოფს, რომ AI აპლიკაციები მუშაობდეს ოპტიმალურ რესურსებზე, მინიმუმამდე დაიყვანოს კომუნიკაციის შეყოვნება და მაქსიმალურად გაზარდოს გამტარუნარიანობა. შედეგი არის მაღალი წარმადობის, მდგრადი და ადვილად სამართავი AI ქარხანა, რომელსაც შეუძლია გაუმკლავდეს ყველაზე მომთხოვნ AI ტრენინგისა და ინფერენციის ამოცანებს. რადგან AI მოდელები აგრძელებენ ზრდას სირთულესა და ზომაში, rack-მასშტაბის სუპერკომპიუტერებზე დატვირთვების ეფექტურად მართვისა და დაგეგმვის შესაძლებლობა უმნიშვნელოვანესი იქნება ინოვაციების წასახალისებლად და კონკურენტული უპირატესობის შესანარჩუნებლად. ეს ჰოლისტიკური სტრატეგია საფუძვლად უდევს საწარმოს AI-ის მომავალს, გარდაქმნის ნედლეულ გამოთვლით სიმძლავრეს ინტელექტუალურ, რეაგირებად და უაღრესად ეფექტურ AI სუპერკომპიუტერინგად.
ორიგინალი წყარო
https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/ხშირად დასმული კითხვები
What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?
What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?
How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?
Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.
How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?
What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?
What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?
How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?
იყავით ინფორმირებული
მიიღეთ უახლესი AI სიახლეები ელფოსტაზე.
