Υπερυπολογιστές AI Κλίμακας Rack: Από το Υλικό στον Προγραμματισμό με Επίγνωση Τοπολογίας

Διακοσμητική εικόνα.

Το τοπίο της τεχνητής νοημοσύνης εξελίσσεται ραγδαία, απαιτώντας όλο και πιο ισχυρή και αποδοτική υπολογιστική υποδομή. Στην πρώτη γραμμή αυτής της εξέλιξης βρίσκονται οι υπερυπολογιστές κλίμακας rack, σχεδιασμένοι να επιταχύνουν τους πιο πολύπλοκους φόρτους εργασίας ΤΝ και υψηλής απόδοσης υπολογιστών (HPC). Τα συστήματα GB200 NVL72 και GB300 NVL72 της NVIDIA, βασισμένα στην καινοτόμο αρχιτεκτονική Blackwell, αντιπροσωπεύουν ένα σημαντικό άλμα προς αυτή την κατεύθυνση, ενσωματώνοντας τεράστια υφάσματα GPU και δικτύωση υψηλού εύρους ζώνης σε συνεκτικές, ισχυρές μονάδες.

Ωστόσο, η ανάπτυξη τέτοιου εξελιγμένου υλικού παρουσιάζει μια μοναδική πρόκληση: πώς μεταφράζετε αυτή την περίπλοκη φυσική τοπολογία σε έναν διαχειρίσιμο, αποδοτικό και προσβάσιμο πόρο για προγραμματιστές και ερευνητές ΤΝ; Η θεμελιώδης αναντιστοιχία μεταξύ της ιεραρχικής φύσης του υλικού κλίμακας rack και των συχνά 'επίπεδων' αφαιρέσεων των παραδοσιακών προγραμματιστών φόρτων εργασίας δημιουργεί ένα σημείο συμφόρησης. Εδώ ακριβώς παρεμβαίνει μια επικυρωμένη στοίβα λογισμικού όπως το NVIDIA Mission Control, γεφυρώνοντας το χάσμα για να μετατρέψει την ακατέργαστη υπολογιστική ισχύ σε ένα απρόσκοπτο, με επίγνωση τοπολογίας, εργοστάσιο ΤΝ.

Υπερυπολογιστές ΤΝ Επόμενης Γενιάς Κλίμακας Rack με την NVIDIA Blackwell

Τα συστήματα NVIDIA GB200 NVL72 και GB300 NVL72, που λειτουργούν με την πρωτοποριακή αρχιτεκτονική NVIDIA Blackwell, δεν είναι απλώς συλλογές ισχυρών GPU. είναι ολοκληρωμένοι υπερυπολογιστές κλίμακας rack, σχεδιασμένοι για το μέλλον της ΤΝ. Κάθε σύστημα διαθέτει 18 στενά συνδεδεμένες πλακέτες υπολογισμού (compute trays), σχηματίζοντας ένα τεράστιο ύφασμα GPU που συνδέεται με προηγμένους διακόπτες NVLink. Αυτά τα συστήματα υποστηρίζουν το NVIDIA Multi-Node NVLink (MNNVL), διευκολύνοντας την επικοινωνία εξαιρετικά υψηλής ταχύτητας εντός του rack, και περιλαμβάνουν πλακέτες υπολογισμού με δυνατότητα IMEX που επιτρέπουν την κοινή μνήμη GPU σε πολλούς κόμβους. Αυτή η αρχιτεκτονική παρέχει μια απαράμιλλη βάση για την εκπαίδευση και την ανάπτυξη μοντέλων ΤΝ μεγάλης κλίμακας, διευρύνοντας τα όρια του δυνατού σε τομείς που κυμαίνονται από την επιστημονική ανακάλυψη έως τις επιχειρηματικές εφαρμογές ΤΝ.

Η σχεδιαστική φιλοσοφία πίσω από αυτά τα συστήματα βασισμένα στην Blackwell εστιάζει στη μεγιστοποίηση της απόδοσης δεδομένων και στην ελαχιστοποίηση της καθυστέρησης μεταξύ των διασυνδεδεμένων GPU. Αυτό επιτυγχάνεται μέσω μιας πυκνά ενσωματωμένης στοίβας υλικού όπου κάθε στοιχείο βελτιστοποιείται για συλλογική απόδοση, διασφαλίζοντας ότι οι φόρτοι εργασίας ΤΝ μπορούν να κλιμακωθούν αποτελεσματικά χωρίς να αντιμετωπίσουν σημεία συμφόρησης στην επικοινωνία.

Γεφυρώνοντας την Τοπολογία Υλικού με Αφαιρέσεις Προγραμματιστών ΤΝ

Για τους αρχιτέκτονες ΤΝ και τους διαχειριστές πλατφορμών HPC, η πραγματική πρόκληση δεν είναι απλώς η απόκτηση και συναρμολόγηση αυτού του προηγμένου υλικού, αλλά η λειτουργική του αξιοποίηση σε έναν 'ασφαλή, αποδοτικό και εύχρηστο' πόρο. Οι παραδοσιακοί προγραμματιστές λειτουργούν συχνά υπό την υπόθεση μιας ομοιογενούς, επίπεδης δεξαμενής υπολογιστικών πόρων. Αυτό το παράδειγμα είναι ακατάλληλο για υπερυπολογιστές κλίμακας rack, όπου ο ιεραρχικός και ευαίσθητος στην τοπολογία σχεδιασμός των υφασμάτων NVLink και των τομέων IMEX είναι κρίσιμος για την απόδοση. Χωρίς την κατάλληλη ενσωμάτωση, οι προγραμματιστές ενδέχεται να τοποθετήσουν κατά λάθος εργασίες σε υποβέλτιστες τοποθεσίες, οδηγώντας σε μειωμένη αποδοτικότητα και απρόβλεπτη απόδοση.

Αυτό είναι το κενό που έχει σχεδιαστεί να καλύψει το NVIDIA Mission Control. Ως ένα ισχυρό επίπεδο ελέγχου κλίμακας rack για συστήματα NVIDIA Grace Blackwell NVL72, το Mission Control διαθέτει εγγενή κατανόηση των υποκείμενων τομέων NVIDIA NVLink και NVIDIA IMEX. Αυτή η βαθιά επίγνωση του επιτρέπει να ενσωματώνεται έξυπνα με δημοφιλείς πλατφόρμες διαχείρισης φόρτων εργασίας όπως το Slurm και το NVIDIA Run:ai. Μεταφράζοντας σύνθετες τοπολογίες υλικού σε εφαρμόσιμη ευφυΐα προγραμματισμού, το Mission Control διασφαλίζει ότι οι προηγμένες δυνατότητες της αρχιτεκτονικής Blackwell αξιοποιούνται πλήρως, μετατρέποντας μια εξελιγμένη συναρμολόγηση υλικού σε ένα πραγματικά λειτουργικό εργοστάσιο ΤΝ. Αυτή η δυνατότητα θα επεκταθεί στην επερχόμενη πλατφόρμα NVIDIA Vera Rubin, συμπεριλαμβανομένου του NVIDIA Rubin NVL8, ενισχύοντας περαιτέρω μια συνεπή προσέγγιση στην υποδομή ΤΝ υψηλής απόδοσης.

Αποκωδικοποιώντας τους Τομείς και τις Κατατμήσεις NVLink για Φόρτους Εργασίας ΤΝ

Στην καρδιά του προγραμματισμού με επίγνωση τοπολογίας για συστήματα Blackwell βρίσκονται οι έννοιες των τομέων και των κατατμήσεων NVLink, οι οποίες εκτίθενται μέσω αναγνωριστικών επιπέδου συστήματος: cluster UUID και clique ID. Αυτά τα αναγνωριστικά είναι κρίσιμα επειδή παρέχουν έναν λογικό χάρτη του φυσικού υφάσματος NVLink, επιτρέποντας στο λογισμικό του συστήματος και στους προγραμματιστές να εξετάζουν τη θέση και τη συνδεσιμότητα της GPU.

Η χαρτογράφηση είναι απλή αλλά ισχυρή:

Cluster UUID αντιστοιχεί στον τομέα NVLink. Ένα κοινό cluster UUID σημαίνει ότι τα συστήματα—και οι GPU τους—ανήκουν στον ίδιο κυρίαρχο τομέα NVLink και συνδέονται με ένα κοινό ύφασμα NVLink. Για το Grace Blackwell NVL72, αυτό το UUID είναι συνεπές σε ολόκληρο το rack, υποδεικνύοντας φυσική εγγύτητα και κοινή συνδεσιμότητα υψηλού εύρους ζώνης.
Clique ID αντιστοιχεί στην κατάτμηση NVLink. Το clique ID προσφέρει μια πιο λεπτομερή διάκριση, αναγνωρίζοντας ομάδες GPU που μοιράζονται μια κατάτμηση NVLink εντός ενός μεγαλύτερου τομέα. Όταν ένα rack χωρίζεται λογικά σε πολλές κατατμήσεις NVLink, το cluster UUID παραμένει το ίδιο, αλλά τα clique IDs διαφοροποιούν αυτές τις μικρότερες, απομονωμένες ομάδες υψηλού εύρους ζώνης.

Αυτή η διάκριση είναι ζωτικής σημασίας από λειτουργική άποψη:

Το Cluster UUID απαντά στην ερώτηση: Ποιες GPU μοιράζονται φυσικά ένα rack και είναι ικανές για επικοινωνία NVLink στις υψηλότερες ταχύτητες;
Το Clique ID απαντά: Ποιες GPU μοιράζονται μια κατάτμηση NVLink και προορίζονται να επικοινωνούν μεταξύ τους για έναν δεδομένο φόρτο εργασίας ή επίπεδο υπηρεσίας, διασφαλίζοντας βέλτιστη απόδοση για εργασίες υψηλού παραλληλισμού;

Αυτά τα αναγνωριστικά αποτελούν τον συνδετικό ιστό, επιτρέποντας σε πλατφόρμες όπως το Slurm, το Kubernetes και το NVIDIA Run:ai να ευθυγραμμίζουν την τοποθέτηση εργασιών, την απομόνωση και τις εγγυήσεις απόδοσης με την πραγματική δομή του υφάσματος NVLink, όλα χωρίς να εκθέτουν την υποκείμενη πολυπλοκότητα του υλικού απευθείας στους τελικούς χρήστες. Το NVIDIA Mission Control παρέχει μια κεντρική προβολή αυτών των αναγνωριστικών, απλοποιώντας τη διαχείριση.

Έννοια Υλικού	Αναγνωριστικό Λογισμικού	Περιγραφή
Τομέας NVLink	Cluster UUID	Αναγνωρίζει GPU που μοιράζονται φυσικά ένα rack, ικανές για επικοινωνία NVLink σε κλίμακα rack.
Κατάτμηση NVLink	Clique ID	Διακρίνει GPU που προορίζονται να επικοινωνούν μαζί εντός ενός τομέα NVLink για έναν συγκεκριμένο φόρτο εργασίας ή επίπεδο υπηρεσίας.

Προγραμματισμός ΤΝ με Επίγνωση Τοπολογίας με το Slurm

Για φόρτους εργασίας πολλαπλών κόμβων που εκτελούνται σε συστήματα NVL72 βασισμένα στην Blackwell, η τοποθέτηση γίνεται εξίσου κρίσιμη με τον απλό αριθμό των διατεθειμένων GPU. Μια εργασία εκπαίδευσης ΤΝ που απαιτεί 16 GPU, για παράδειγμα, θα αποδώσει πολύ διαφορετικά εάν απλωθεί άναρχα σε πολλούς λιγότερο συνδεδεμένους κόμβους σε σύγκριση με το να περιοριστεί εντός ενός ενιαίου, υψηλού εύρους ζώνης υφάσματος NVLink. Εδώ είναι που το plugin topology/block του Slurm αποδεικνύεται απαραίτητο, επιτρέποντας στο Slurm να αναγνωρίζει τις λεπτές διαφορές συνδεσιμότητας μεταξύ των κόμβων.

Στα συστήματα Grace Blackwell NVL72, οι ομάδες κόμβων που διαθέτουν συνδέσεις χαμηλότερης καθυστέρησης αντιστοιχούν απευθείας σε κατατμήσεις NVLink—ομάδες GPU που ενώνονται από ένα αποκλειστικό, υψηλού εύρους ζώνης ύφασμα NVLink. Ενεργοποιώντας το plugin topology/block και εκθέτοντας αυτές τις κατατμήσεις NVLink ως ξεχωριστές ομάδες, το Slurm αποκτά την απαιτούμενη συμφραζόμενη ευφυΐα για τη λήψη ανώτερων αποφάσεων προγραμματισμού. Από προεπιλογή, οι εργασίες τοποθετούνται έξυπνα εντός μιας ενιαίας κατάτμησης NVLink (ή ομάδας), διατηρώντας έτσι την κρίσιμη απόδοση του Multi-Node NVLink (MNNVL). Ενώ οι μεγαλύτερες εργασίες μπορούν ακόμα να εκτείνονται σε πολλαπλές ομάδες εάν είναι απαραίτητο, αυτή η προσέγγιση καθιστά τις ανταλλαγές απόδοσης σαφείς, αντί τυχαίες.

Σε πρακτικούς όρους, αυτό επιτρέπει ευέλικτες στρατηγικές ανάπτυξης:

Μία ομάδα/μπλοκ κόμβων ανά rack: Αυτή η διαμόρφωση επιτρέπει στο Slurm Quality of Service (QoS) να διαχειρίζεται την πρόσβαση στην κοινόχρηστη, rack-wide κατάτμηση, ιδανική για ενοποιημένη διαχείριση πόρων.
Πολλαπλές ομάδες/μπλοκ κόμβων ανά rack: Αυτή η προσέγγιση είναι ιδανική για την προσφορά μικρότερων, απομονωμένων, υψηλού εύρους ζώνης δεξαμενών GPU. Εδώ, κάθε ομάδα/μπλοκ κόμβων αντιστοιχεί σε μια αποκλειστική κατάτμηση Slurm, παρέχοντας αποτελεσματικά ένα διακριτό επίπεδο υπηρεσίας. Οι χρήστες μπορούν τότε να αξιοποιήσουν μια συγκεκριμένη κατάτμηση Slurm, τοποθετώντας αυτόματα τις εργασίες τους εντός της προβλεπόμενης κατάτμησης NVLink χωρίς να χρειάζεται να κατανοήσουν τις υποκείμενες πολυπλοκότητες του υφάσματος. Αυτή η προηγμένη διαχείριση πόρων είναι κρίσιμη για οργανισμούς που επιδιώκουν να κλιμακώσουν τις πρωτοβουλίες τους στην ΤΝ, ευθυγραμμισμένοι με τον ευρύτερο στόχο της κλιμάκωσης της ΤΝ για όλους.

Βελτιστοποίηση Φόρτων Εργασίας MNNVL με IMEX και Mission Control

Οι φόρτοι εργασίας Multi-Node NVIDIA CUDA συχνά βασίζονται στο MNNVL για να επιτύχουν μέγιστη απόδοση, επιτρέποντας στις GPU σε διαφορετικές πλακέτες υπολογισμού να συμμετέχουν σε ένα συνεκτικό μοντέλο προγραμματισμού κοινής μνήμης. Από την οπτική γωνία ενός προγραμματιστή εφαρμογών, η αξιοποίηση του MNNVL μπορεί να φανεί παραπλανητικά απλή, αλλά η υποκείμενη ενορχήστρωση είναι περίπλοκη.

Εδώ είναι που το NVIDIA Mission Control παίζει καθοριστικό ρόλο. Διασφαλίζει ότι τα κρίσιμα στοιχεία ευθυγραμμίζονται τέλεια κατά την εκτέλεση εργασιών MNNVL με το Slurm. Συγκεκριμένα, το Mission Control εγγυάται ότι η υπηρεσία IMEX—η οποία διευκολύνει την κοινόχρηστη μνήμη GPU—εκτελείται στο ακριβές σύνολο πλακετών υπολογισμού που συμμετέχουν στην εργασία MNNVL. Επίσης, διασφαλίζει ότι οι απαραίτητοι NVSwitches έχουν ρυθμιστεί σωστά για τη δημιουργία και διατήρηση αυτών των συνδέσεων MNNVL υψηλού εύρους ζώνης. Αυτός ο συντονισμός είναι ζωτικής σημασίας για την παροχή συνεπούς, προβλέψιμης απόδοσης σε ολόκληρο το rack. Χωρίς την έξυπνη ενορχήστρωση του Mission Control, τα οφέλη του MNNVL και του IMEX θα ήταν δύσκολο να υλοποιηθούν και να διαχειριστούν σε κλίμακα, τονίζοντας τη δέσμευση της NVIDIA να προσφέρει ολοκληρωμένες λύσεις για προηγμένες GPU και τα οικοσυστήματά τους.

Προς Αυτοματοποιημένη, Επεκτάσιμη Υποδομή ΤΝ

Η ενσωμάτωση της αρχιτεκτονικής Blackwell της NVIDIA με εξελιγμένα επίπεδα λογισμικού όπως το Mission Control και το Topograph σηματοδοτεί ένα σημαντικό βήμα προς τη δημιουργία μιας πραγματικά αυτοματοποιημένης και επεκτάσιμης υποδομής ΤΝ. Το NVIDIA Topograph αυτοματοποιεί την ανακάλυψη της πολύπλοκης ιεραρχίας NVLink και διασύνδεσης, εκθέτοντας αυτή τη ζωτική πληροφορία σε προγραμματιστές όπως το Slurm, το Kubernetes (μέσω NVIDIA DRA και ComputeDomains) και το NVIDIA Run:ai. Αυτό εξαλείφει το χειροκίνητο κόστος διαχείρισης της τοπολογίας, επιτρέποντας στους οργανισμούς να αναπτύσσουν και να κλιμακώνουν τους φόρτους εργασίας ΤΝ με πρωτοφανή αποδοτικότητα.

Παρέχοντας στους προγραμματιστές μια βαθιά, πραγματικού χρόνου κατανόηση της τοπολογίας του υλικού, αυτή η ολοκληρωμένη προσέγγιση διασφαλίζει ότι οι εφαρμογές ΤΝ εκτελούνται στους βέλτιστους πόρους, ελαχιστοποιώντας την καθυστέρηση επικοινωνίας και μεγιστοποιώντας την απόδοση. Το αποτέλεσμα είναι ένα εργοστάσιο ΤΝ υψηλής απόδοσης, ανθεκτικό και εύκολο στη διαχείριση, ικανό να χειριστεί τις πιο απαιτητικές εργασίες εκπαίδευσης και inference ΤΝ. Καθώς τα μοντέλα ΤΝ συνεχίζουν να αυξάνονται σε πολυπλοκότητα και μέγεθος, η ικανότητα αποτελεσματικής διαχείρισης και προγραμματισμού φόρτων εργασίας σε υπερυπολογιστές κλίμακας rack θα είναι υψίστης σημασίας για την προώθηση της καινοτομίας και τη διατήρηση του ανταγωνιστικού πλεονεκτήματος. Αυτή η ολιστική στρατηγική στηρίζει το μέλλον της επιχειρηματικής ΤΝ, μετατρέποντας την ακατέργαστη υπολογιστική ισχύ σε έξυπνη, ανταποκρινόμενη και εξαιρετικά αποδοτική υπερυπολογιστική ΤΝ.

Αρχική πηγή

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Συχνές ερωτήσεις

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Μείνετε ενημερωμένοι

Λάβετε τα τελευταία νέα AI στο email σας.

Κοινοποίηση