title: "AI-superdatorer i rackskala: Från hårdvara till topologi-medveten schemaläggning" slug: "running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling" date: "2026-04-08" lang: "sv" source: "https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/" category: "AI för företag" keywords:

AI-arbetsbelastningar
superdatorer i rackskala
NVIDIA Blackwell
NVLink
topologi-medveten schemaläggning
Slurm
NVIDIA Mission Control
Multi-Node NVLink (MNNVL)
IMEX
GPU-vävnader
resurshantering
AI för företag meta_description: "Förstå hur NVIDIAs Blackwell-superdatorer, i kombination med Mission Control, möjliggör topologi-medveten schemaläggning för AI-arbetsbelastningar och optimerar prestanda över NVLink- och IMEX-domäner." image: "/images/articles/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling.png" image_alt: "NVIDIA Grace Blackwell NVL72-rack som illustrerar NVLink- och IMEX-domäner för AI-superdatorer i rackskala" quality_score: 94 content_score: 93 seo_score: 95 companies:
NVIDIA schema_type: "NewsArticle" reading_time: 7 faq:
question: "Vad är NVIDIA GB200- och GB300 NVL72-system, och vilken roll spelar Blackwell-arkitekturen?" answer: "NVIDIA GB200- och GB300 NVL72-system representerar en ny generation av superdatorer i rackskala, speciellt konstruerade för krävande AI- och HPC-arbetsbelastningar. Dessa system utnyttjar den banbrytande NVIDIA Blackwell-arkitekturen, som integrerar massiva GPU-vävnader med nätverk med hög bandbredd till en enda, tätt kopplad enhet. Blackwell-arkitekturen är utformad för att leverera oöverträffad prestanda och effektivitet för träning och inferens, med avancerade NVLink-switchar, Multi-Node NVLink (MNNVL) för kommunikation mellan GPU:er, och IMEX-kapabla beräkningsbrickor som underlättar delat GPU-minne över flera noder inom racket. Denna integrerade design syftar till att övervinna begränsningarna hos traditionella serverbaserade GPU-distributioner, och tillhandahåller en sömlös, skalbar plattform för komplexa AI-modeller."
question: "Vad är den främsta utmaningen med att schemalägga AI-arbetsbelastningar på dessa avancerade superdatorer i rackskala?" answer: "Kärnutmaningen ligger i den betydande skillnaden mellan den intrikata, hierarkiska fysiska topologin hos superdatorer i rackskala och de ofta förenklade abstraktionerna som presenteras av konventionella arbetsbelastningsschemaläggare. Medan system som NVIDIA GB200/GB300 NVL72 stoltserar med sofistikerade NVLink-vävnader och IMEX-domäner, uppfattar schemaläggare vanligtvis en platt pool av GPU:er och noder. Detta kan leda till ineffektiv resursallokering, suboptimal prestanda på grund av dålig datalokalitet eller kommunikationsflaskhalsar, samt ökad operativ komplexitet för plattformsoperatörer. Utan topologi-medveten schemaläggning kan de inneboende fördelarna med rackskaleintegration, såsom sammankopplingar med hög bandbredd, inte utnyttjas fullt ut för AI-arbetsbelastningar."
question: "Hur hanterar NVIDIA Mission Control de operativa komplexiteterna med AI-schemaläggning i rackskala?" answer: "NVIDIA Mission Control fungerar som en avgörande kontrollplan som överbryggar klyftan mellan den komplexa hårdvarutopologin hos NVIDIA Grace Blackwell NVL72-system och behoven hos plattformar för arbetsbelastningshantering som Slurm och NVIDIA Run:ai. Den ger en nativ, djupgående förståelse för NVLink- och IMEX-domäner, och översätter fysiska hårdvarurelationer till logiska identifierare som schemaläggare kan tolka. Genom att centralisera vyn av kluster-UUID:er och klick-ID:n, möjliggör Mission Control exakt, topologi-medveten jobbplacering, säkerställer korrekt arbetsbelastningsisolering och garanterar konsekvent prestanda genom att anpassa beräkningar till den optimala underliggande hårdvaruväven. Detta omvandlar effektivt rå infrastruktur till en effektiv, hanterbar AI-fabrik."
question: "Förklara begreppen Kluster-UUID och Klick-ID i samband med NVLink-topologin och deras operativa betydelse." answer: "Kluster-UUID och Klick-ID är identifierare på systemnivå som kodar en GPU:s position inom NVLink-väven, vilket gör den komplexa topologin förståelig för systemprogramvara och schemaläggare. Kluster-UUID:n motsvarar NVLink-domänen, vilket indikerar att system och deras GPU:er tillhör samma fysiska rack och delar en gemensam NVLink-väv. För Grace Blackwell NVL72 är denna UUID konsekvent över hela racket. Klick-ID:t ger en finare åtskillnad, motsvarande en NVLink-partition. GPU:er som delar ett Klick-ID tillhör samma logiska partition inom den domänen. Operativt besvarar Kluster-UUID:n frågan 'Vilka GPU:er delar fysiskt ett rack och kan kommunicera via NVLink?', medan Klick-ID:t besvarar 'Vilka GPU:er delar en NVLink-partition och är avsedda att kommunicera tillsammans för en specifik arbetsbelastning?', vilket möjliggör finare resursallokering och prestandaoptimering."
question: "Hur förbättrar Slurms topologi/block-plugin placeringen av AI-arbetsbelastningar på NVL72-system?" answer: "Slurms topologi/block-plugin är avgörande för effektiv placering av AI-arbetsbelastningar på NVIDIA NVL72-system genom att göra Slurm medveten om att alla noder (eller GPU:er) inte är lika vad gäller anslutning och prestanda. På Grace Blackwell NVL72-system motsvarar block av noder med lägre latensanslutningar direkt NVLink-partitioner, som är grupper av GPU:er som delar en NVLink-väv med hög bandbredd. Genom att aktivera denna plugin och exponera NVLink-partitioner som 'block' får Slurm den nödvändiga kontexten för att fatta intelligenta placeringsbeslut. Detta säkerställer att jobb med flera GPU:er företrädesvis allokeras inom en enda NVLink-partition för att bevara MNNVL-prestanda, vilket förhindrar prestandaförsämring som skulle kunna uppstå om jobb spreds urskillningslöst över olika, mindre anslutna segment av superdatorn. Det möjliggör optimerad resursutnyttjande och förutsägbar prestanda för krävande AI-uppgifter."
question: "Vad är Multi-Node NVLink (MNNVL), och hur underlättar IMEX detta för delat GPU-minne?" answer: "Multi-Node NVLink (MNNVL) är en nyckelteknologi som möjliggör för GPU:er över olika beräkningsnoder inom ett system i rackskala att kommunicera direkt med hög bandbredd och låg latens, vilket är avgörande för att skala stora AI-modeller. MNNVL möjliggör en delat-minnes-programmeringsmodell över dessa distribuerade GPU:er, vilket får det att framstå för applikationer som en enda, massiv GPU-väv. IMEX (Infiniband Memory Expansion) är den underliggande tekniken som underlättar MNNVL. IMEX-kapabla beräkningsbrickor är utformade för att möjliggöra delat GPU-minne över noder genom att utnyttja NVIDIAs avancerade nätverk. Medan MNNVL förenklar programmeringsmodellen för utvecklare, spelar Mission Control en avgörande roll bakom kulisserna för att säkerställa att IMEX-tjänster korrekt provisioneras och synkroniseras med MNNVL-jobb, vilket garanterar att fördelarna med delat GPU-minne realiseras fullt ut utan att exponera de underliggande komplexiteterna för slutanvändaren."
question: "Vilka är de främsta fördelarna med att implementera topologi-medveten schemaläggning för AI-arbetsbelastningar på superdatorer i rackskala?" answer: "Implementering av topologi-medveten schemaläggning erbjuder flera betydande fördelar för AI-arbetsbelastningar på superdatorer i rackskala. För det första säkerställer det optimal prestanda genom att intelligent placera jobb på GPU:er som har de högsta bandbredds- och lägsta latensanslutningarna, vilket minimerar kommunikationsöverhuvuden som är inneboende i distribuerad AI-träning. För det andra förbättrar det resursutnyttjandet genom att förhindra ineffektiv spridning av jobb över disparata hårdvarusegment, vilket leder till mer förutsägbar prestanda och bättre genomströmning. För det tredje förenklar det hanteringen för plattformsoperatörer genom att abstrahera hårdvarukomplexiteter samtidigt som det ger tydliga isoleringsgränser mellan arbetsbelastningar, vilket förbättrar systemstabilitet och säkerhet. I slutändan omvandlar topologi-medveten schemaläggning komplex hårdvara till en mycket effektiv, skalbar och hanterbar 'AI-fabrik', vilket accelererar forskning och utveckling samtidigt som det minskar den operativa bördan."
question: "Hur bidrar NVIDIA Topograph till den automatiserade upptäckten och schemaläggningen av superdatortopologier?" answer: "NVIDIA Topograph är en kritisk komponent som automatiserar upptäckten av den intrikata NVLink- och sammankopplingshierarkin inom superdatorer i rackskala. Denna automatiserade upptäckt är avgörande eftersom manuell konfiguration och underhåll av detaljerad topologiinformation för storskaliga system skulle vara felbenägen och mycket tidskrävande. Topograph exponerar denna detaljerade tyginformation för arbetsbelastningsschemaläggare, inklusive Slurm och Kubernetes (via NVIDIA DRA och ComputeDomains), samt NVIDIA Run:ai. Genom att förse schemaläggare med en korrekt och realtidsbild av hårdvarutopologin, möjliggör Topograph dem att fatta intelligenta, automatiserade placeringsbeslut. Detta säkerställer att AI-arbetsbelastningar schemaläggs på ett topologi-medvetet sätt från början, optimerar prestanda, resursallokering och den totala systemeffektiviteten, vilket är avgörande för att bygga och driva skalbara AI-fabriker."

AI-superdatorer i rackskala: Från hårdvara till topologi-medveten schemaläggning

Dekorativ bild.

Landskapet inom artificiell intelligens utvecklas snabbt och kräver allt kraftfullare och effektivare beräkningsinfrastruktur. I spetsen för denna utveckling finns superdatorer i rackskala, designade för att accelerera de mest komplexa AI- och högpresterande beräkningsarbetsbelastningarna (HPC). NVIDIAs GB200 NVL72- och GB300 NVL72-system, byggda på den innovativa Blackwell-arkitekturen, representerar ett betydande steg framåt i denna riktning, genom att paketera enorma GPU-vävnader och nätverk med hög bandbredd i sammanhängande, kraftfulla enheter.

Att driftsätta så sofistikerad hårdvara innebär dock en unik utmaning: hur översätter man denna intrikata fysiska topologi till en hanterbar, högpresterande och tillgänglig resurs för AI-utvecklare och forskare? Den grundläggande skillnaden mellan den hierarkiska naturen hos hårdvara i rackskala och de ofta platta abstraktionerna hos traditionella arbetsbelastningsschemaläggare skapar en flaskhals. Det är just här en validerad mjukvarustack som NVIDIA Mission Control kommer in, och överbryggar klyftan för att omvandla rå beräkningskraft till en sömlös, topologi-medveten AI-fabrik.

Nästa generations AI-superdatorer i rackskala med NVIDIA Blackwell

NVIDIA GB200 NVL72- och GB300 NVL72-systemen, drivna av den banbrytande NVIDIA Blackwell-arkitekturen, är inte bara samlingar av kraftfulla GPU:er; de är integrerade superdatorer i rackskala konstruerade för framtidens AI. Varje system har 18 tätt kopplade beräkningsbrickor, som bildar en massiv GPU-väv ansluten med avancerade NVLink-switchar. Dessa system stöder NVIDIA Multi-Node NVLink (MNNVL), vilket underlättar ultrahög hastighet kommunikation inom racket, och inkluderar IMEX-kapabla beräkningsbrickor som möjliggör delat GPU-minne över noder. Denna arkitektur ger en oöverträffad grund för träning och distribution av storskaliga AI-modeller, och flyttar gränserna för vad som är möjligt inom områden som sträcker sig från vetenskaplig upptäckt till företags AI-applikationer.

Designfilosofin bakom dessa Blackwell-baserade system fokuserar på att maximera datagenomströmning och minimera latens mellan sammankopplade GPU:er. Detta uppnås genom en tätt integrerad hårdvarustack där varje komponent är optimerad för kollektiv prestanda, vilket säkerställer att AI-arbetsbelastningar kan skalas effektivt utan att drabbas av kommunikationsflaskhalsar.

Överbryggning av hårdvarutopologi med AI-schemaläggares abstraktioner

För AI-arkitekter och HPC-plattformsoperatörer är den verkliga utmaningen inte bara att skaffa och montera denna avancerade hårdvara, utan snarare att operationalisera den till en 'säker, högpresterande och lättanvänd' resurs. Traditionella schemaläggare utgår ofta från en homogen, platt pool av beräkningsresurser. Detta paradigm är olämpligt för superdatorer i rackskala, där den hierarkiska och topologi-känsliga designen av NVLink-vävnader och IMEX-domäner är avgörande för prestanda. Utan korrekt integration kan schemaläggare oavsiktligt placera uppgifter på suboptimala platser, vilket leder till minskad effektivitet och oförutsägbar prestanda.

Detta är klyftan som NVIDIA Mission Control är konstruerad för att fylla. Som en robust kontrollplan i rackskala för NVIDIA Grace Blackwell NVL72-system, har Mission Control en nativ förståelse för de underliggande NVIDIA NVLink- och NVIDIA IMEX-domänerna. Denna djupa medvetenhet gör det möjligt att intelligent integrera med populära plattformar för arbetsbelastningshantering som Slurm och NVIDIA Run:ai. Genom att översätta komplexa hårdvarutopologier till handlingsbar schemaläggningsinformation, säkerställer Mission Control att Blackwell-arkitekturens avancerade funktioner utnyttjas fullt ut, vilket omvandlar en sofistikerad hårdvaruuppsättning till en verkligt operationell AI-fabrik. Denna förmåga kommer att utökas till den kommande NVIDIA Vera Rubin-plattformen, inklusive NVIDIA Rubin NVL8, vilket ytterligare befäster ett konsekvent tillvägagångssätt för högpresterande AI-infrastruktur.

Avkodning av NVLink-domäner och partitioner för AI-arbetsbelastningar

I hjärtat av topologi-medveten schemaläggning för Blackwell-system finns koncepten NVLink-domäner och partitioner, som exponeras genom identifierare på systemnivå: kluster-UUID och klick-ID. Dessa identifierare är avgörande eftersom de ger en logisk karta över den fysiska NVLink-väven, vilket gör att systemprogramvara och schemaläggare kan resonera om GPU:ns position och anslutning.

Mappningen är enkel men kraftfull:

Kluster-UUID motsvarar NVLink-domänen. En delad kluster-UUID betyder att system – och deras GPU:er – tillhör samma övergripande NVLink-domän och är anslutna av en gemensam NVLink-väv. För Grace Blackwell NVL72 är denna UUID konsekvent över hela racket, vilket indikerar fysisk närhet och delad höghastighetsanslutning.
Klick-ID motsvarar NVLink-partitionen. Klick-ID:t erbjuder en finare åtskillnad och identifierar grupper av GPU:er som delar en NVLink-partition inom en större domän. När ett rack är logiskt segmenterat i flera NVLink-partitioner, förblir kluster-UUID:n densamma, men klick-ID:na differentierar dessa mindre, isolerade höghastighetsgrupper.

Denna distinktion är avgörande ur ett operativt perspektiv:

Kluster-UUID:n besvarar frågan: Vilka GPU:er delar fysiskt ett rack och kan kommunicera via NVLink med högsta hastighet?
Klick-ID:t besvarar: Vilka GPU:er delar en NVLink-partition och är avsedda att kommunicera tillsammans för en given arbetsbelastning eller servicenivå, vilket säkerställer optimal prestanda för mycket parallella uppgifter?

Dessa identifierare är den sammankopplande vävnaden, vilket gör att plattformar som Slurm, Kubernetes och NVIDIA Run:ai kan anpassa jobbplacering, isolering och prestandagarantier till den faktiska strukturen hos NVLink-väven, allt utan att exponera den underliggande hårdvarukomplexiteten direkt för slutanvändarna. NVIDIA Mission Control tillhandahåller en centraliserad vy av dessa identifierare, vilket effektiviserar hanteringen.

Hårdvarukoncept	Mjukvaruidentifierare	Beskrivning
NVLink-domän	Kluster-UUID	Identifierar GPU:er som fysiskt delar ett rack, kapabla till NVLink-kommunikation över hela racket.
NVLink-partition	Klick-ID	Särskiljer GPU:er avsedda att kommunicera tillsammans inom en NVLink-domän för en specifik arbetsbelastning eller servicenivå.

Topologi-medveten AI-schemaläggning med Slurm

För arbetsbelastningar med flera noder som körs på Blackwell-baserade NVL72-system, blir placering lika kritisk som det totala antalet allokerade GPU:er. Ett AI-träningsjobb som kräver 16 GPU:er, till exempel, kommer att prestera väsentligt annorlunda om det sprids slumpmässigt över flera mindre anslutna noder jämfört med att vara begränsat till en enda NVLink-väv med hög bandbredd. Det är här Slurms topology/block-plugin visar sig vara oumbärlig, vilket gör att Slurm kan känna igen de nyanserade anslutningsskillnaderna mellan noder.

På Grace Blackwell NVL72-system motsvarar block av noder med lägre latensanslutningar direkt NVLink-partitioner – grupper av GPU:er som förenas av en dedikerad NVLink-väv med hög bandbredd. Genom att aktivera topology/block-pluginen och exponera dessa NVLink-partitioner som distinkta block, får Slurm den kontextuella intelligens som krävs för att fatta överlägsna schemaläggningsbeslut. Som standard placeras jobb intelligent inom en enda NVLink-partition (eller block), varigenom den kritiska Multi-Node NVLink (MNNVL) prestandan bevaras. Även om större jobb fortfarande kan sträcka sig över flera block om nödvändigt, gör detta tillvägagångssätt prestandaavvägningarna explicita, snarare än oavsiktliga.

I praktiska termer möjliggör detta flexibla distributionsstrategier:

Ett block/nodgrupp per rack: Denna konfiguration gör att Slurm Quality of Service (QoS) kan hantera åtkomst till den delade, rackomfattande partitionen, idealisk för konsoliderad resurshantering.
Flera block/nodgrupper per rack: Detta tillvägagångssätt är perfekt för att erbjuda mindre, isolerade GPU-pooler med hög bandbredd. Här mappas varje block/nodgrupp till en dedikerad Slurm-partition, vilket effektivt tillhandahåller en distinkt servicenivå. Användare kan då använda en specifik Slurm-partition och automatiskt placera sina jobb inom den avsedda NVLink-partitionen utan att behöva förstå de underliggande vävkomplexiteterna. Denna avancerade resurshantering är avgörande för organisationer som vill skala sina AI-initiativ, i linje med det bredare målet att skala AI för alla.

Optimering av MNNVL-arbetsbelastningar med IMEX och Mission Control

Multi-Node NVIDIA CUDA-arbetsbelastningar förlitar sig ofta på MNNVL för att uppnå maximal prestanda, vilket gör att GPU:er på olika beräkningsbrickor kan delta i en sammanhängande, delat-minnes-programmeringsmodell. Ur en applikationsutvecklares perspektiv kan användningen av MNNVL verka bedrägligt enkel, men den underliggande orkestreringen är komplex.

Det är här NVIDIA Mission Control spelar en avgörande roll. Det säkerställer att kritiska komponenter passar perfekt när MNNVL-jobb körs med Slurm. Specifikt garanterar Mission Control att IMEX-tjänsten – som underlättar det delade GPU-minnet – körs på exakt den uppsättning beräkningsbrickor som deltar i MNNVL-jobbet. Det säkerställer också att de nödvändiga NVSwitcharna är korrekt konfigurerade för att upprätta och upprätthålla dessa höghastighets-MNNVL-anslutningar. Denna koordinering är avgörande för att ge konsekvent, förutsägbar prestanda över racket. Utan Mission Controls intelligenta orkestrering skulle fördelarna med MNNVL och IMEX vara svåra att realisera och hantera i skala, vilket belyser NVIDIAs engagemang för att leverera kompletta lösningar för avancerade GPU:er och deras ekosystem.

Mot automatiserad, skalbar AI-infrastruktur

Integrationen av NVIDIAs Blackwell-arkitektur med sofistikerade mjukvarulager som Mission Control och Topograph markerar ett betydande steg mot att skapa verkligt automatiserad och skalbar AI-infrastruktur. NVIDIA Topograph automatiserar upptäckten av den komplexa NVLink- och sammankopplingshierarkin, och exponerar denna vitala information för schemaläggare som Slurm, Kubernetes (via NVIDIA DRA och ComputeDomains), och NVIDIA Run:ai. Detta eliminerar den manuella överbelastningen av att hantera topologi, vilket gör att organisationer kan distribuera och skala AI-arbetsbelastningar med oöverträffad effektivitet.

Genom att förse schemaläggare med en djup, realtidsförståelse av hårdvarutopologin, säkerställer detta integrerade tillvägagångssätt att AI-applikationer körs på de optimala resurserna, vilket minimerar kommunikationslatens och maximerar genomströmning. Resultatet är en högpresterande, motståndskraftig och lätt att hantera AI-fabrik som klarar av de mest krävande AI-tränings- och inferensuppgifterna. Eftersom AI-modeller fortsätter att växa i komplexitet och storlek, kommer förmågan att effektivt hantera och schemalägga arbetsbelastningar på superdatorer i rackskala att vara avgörande för att driva innovation och upprätthålla konkurrensfördelar. Denna holistiska strategi ligger till grund för framtidens AI för företag, och omvandlar rå beräkningskraft till intelligent, responsiv och mycket effektiv AI-supercomputing.

Originalkälla

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Vanliga frågor

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Håll dig uppdaterad

Få de senaste AI-nyheterna i din inkorg.

Dela