title: "랙 스케일 AI 슈퍼컴퓨터: 하드웨어에서 토폴로지 인식 스케줄링까지" slug: "running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling" date: "2026-04-08" lang: "ko" source: "https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/" category: "기업 AI" keywords:

AI 워크로드
랙 스케일 슈퍼컴퓨터
NVIDIA Blackwell
NVLink
토폴로지 인식 스케줄링
Slurm
NVIDIA Mission Control
Multi-Node NVLink (MNNVL)
IMEX
GPU 패브릭
자원 관리
기업 AI meta_description: "NVIDIA Blackwell 슈퍼컴퓨터가 Mission Control과 결합하여 AI 워크로드에 대한 토폴로지 인식 스케줄링을 어떻게 가능하게 하고, NVLink 및 IMEX 도메인 전반에 걸쳐 성능을 최적화하는지 알아봅니다." image: "/images/articles/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling.png" image_alt: "랙 스케일 AI 슈퍼컴퓨터를 위한 NVLink 및 IMEX 도메인을 보여주는 NVIDIA Grace Blackwell NVL72 랙" quality_score: 94 content_score: 93 seo_score: 95 companies:
NVIDIA schema_type: "NewsArticle" reading_time: 7 faq:
question: "NVIDIA GB200 및 GB300 NVL72 시스템은 무엇이며, Blackwell 아키텍처는 어떤 역할을 하나요?" answer: "NVIDIA GB200 및 GB300 NVL72 시스템은 까다로운 AI 및 HPC 워크로드를 위해 특별히 설계된 차세대 랙 스케일 슈퍼컴퓨터입니다. 이 시스템은 방대한 GPU 패브릭과 고대역폭 네트워킹을 단일의 긴밀하게 결합된 장치에 통합하는 혁신적인 NVIDIA Blackwell 아키텍처를 활용합니다. Blackwell 아키텍처는 고급 NVLink 스위치, GPU 간 통신을 위한 Multi-Node NVLink (MNNVL), 랙 내 여러 노드에 걸쳐 공유 GPU 메모리를 용이하게 하는 IMEX 지원 컴퓨팅 트레이를 특징으로 하여 트레이닝 및 추론을 위한 전례 없는 성능과 효율성을 제공하도록 설계되었습니다. 이 통합 설계는 기존 서버 기반 GPU 배포의 한계를 극복하고 복잡한 AI 모델을 위한 원활하고 확장 가능한 플랫폼을 제공하는 것을 목표로 합니다."
question: "이러한 고급 랙 스케일 슈퍼컴퓨터에서 AI 워크로드 스케줄링의 주요 과제는 무엇인가요?" answer: "핵심 과제는 랙 스케일 슈퍼컴퓨터의 복잡하고 계층적인 물리적 토폴로지와 기존 워크로드 스케줄러가 제시하는 종종 단순한 추상화 사이의 상당한 불일치에 있습니다. NVIDIA GB200/GB300 NVL72와 같은 시스템은 정교한 NVLink 패브릭 및 IMEX 도메인을 자랑하지만, 스케줄러는 일반적으로 평면적인 GPU 및 노드 풀을 인식합니다. 이로 인해 비효율적인 자원 할당, 데이터 지역성 부족 또는 통신 병목 현상으로 인한 최적 이하의 성능, 그리고 플랫폼 운영자를 위한 운영 복잡성 증가가 발생할 수 있습니다. 토폴로지 인식 스케줄링 없이는 고대역폭 상호 연결과 같은 랙 스케일 통합의 본질적인 이점을 AI 워크로드에 완전히 활용할 수 없습니다."
question: "NVIDIA Mission Control은 랙 스케일 AI 스케줄링의 운영 복잡성을 어떻게 해결하나요?" answer: "NVIDIA Mission Control은 NVIDIA Grace Blackwell NVL72 시스템의 복잡한 하드웨어 토폴로지와 Slurm 및 NVIDIA Run:ai와 같은 워크로드 관리 플랫폼의 요구 사항 사이의 간극을 메우는 중요한 제어 플레인 역할을 합니다. 이는 NVLink 및 IMEX 도메인에 대한 기본적이고 심층적인 이해를 제공하며, 물리적 하드웨어 관계를 스케줄러가 해석할 수 있는 논리적 식별자로 변환합니다. Cluster UUID 및 Clique ID에 대한 뷰를 중앙 집중화함으로써 Mission Control은 정확하고 토폴로지 인식적인 작업 배치를 가능하게 하고, 적절한 워크로드 격리를 보장하며, 최적의 기본 하드웨어 패브릭과 계산을 정렬하여 일관된 성능을 보장합니다. 이는 원시 인프라를 효율적이고 관리 가능한 AI 팩토리로 효과적으로 변환합니다."
question: "NVLink 토폴로지 맥락에서 Cluster UUID와 Clique ID의 개념 및 운영상의 중요성을 설명해 주세요." answer: "Cluster UUID와 Clique ID는 NVLink 패브릭 내에서 GPU의 위치를 인코딩하여 복잡한 토폴로지를 시스템 소프트웨어와 스케줄러가 이해할 수 있도록 하는 시스템 수준 식별자입니다. Cluster UUID는 NVLink 도메인에 해당하며, 시스템과 해당 GPU가 동일한 물리적 랙에 속하고 공통 NVLink 패브릭을 공유함을 나타냅니다. Grace Blackwell NVL72의 경우, 이 UUID는 전체 랙에서 일관됩니다. Clique ID는 NVLink 파티션에 해당하는 더 세분화된 구분을 제공합니다. Clique ID를 공유하는 GPU는 해당 도메인 내의 동일한 논리적 파티션에 속합니다. 운영상 Cluster UUID는 어떤 GPU가 물리적으로 랙을 공유하고 NVLink를 통해 통신할 수 있는지에 대한 답을 제공하는 반면, Clique ID는 어떤 GPU가 NVLink 파티션을 공유하고 특정 워크로드를 위해 함께 통신하도록 의도되었는지를 답하여 더 세분화된 자원 할당 및 성능 최적화를 가능하게 합니다."
question: "Slurm의 토폴로지/블록 플러그인은 NVL72 시스템에서 AI 워크로드 배치를 어떻게 향상시키나요?" answer: "Slurm의 토폴로지/블록 플러그인은 연결성 및 성능 면에서 모든 노드(또는 GPU)가 동등하지 않다는 것을 Slurm이 인식하도록 함으로써 NVIDIA NVL72 시스템에서 효율적인 AI 워크로드 배치를 위해 필수적입니다. Grace Blackwell NVL72 시스템에서 대기 시간이 짧은 연결을 가진 노드 블록은 고대역폭 NVLink 패브릭을 공유하는 GPU 그룹인 NVLink 파티션에 직접 매핑됩니다. 이 플러그인을 활성화하고 NVLink 파티션을 '블록'으로 노출함으로써 Slurm은 지능적인 배치 결정을 내리는 데 필요한 컨텍스트를 얻습니다. 이는 다중 GPU 작업이 MNNVL 성능을 보존하기 위해 단일 NVLink 파티션 내에 우선적으로 할당되도록 보장하여, 작업이 슈퍼컴퓨터의 서로 다른, 연결성이 낮은 세그먼트에 무차별적으로 분산될 경우 발생할 수 있는 성능 저하를 방지합니다. 이는 까다로운 AI 작업을 위한 최적화된 자원 활용과 예측 가능한 성능을 가능하게 합니다."
question: "Multi-Node NVLink (MNNVL)는 무엇이며, IMEX는 공유 GPU 메모리를 위해 이를 어떻게 용이하게 하나요?" answer: "Multi-Node NVLink (MNNVL)는 랙 스케일 시스템 내의 서로 다른 컴퓨팅 노드에 걸쳐 GPU가 고대역폭 및 저지연으로 직접 통신할 수 있도록 하는 핵심 기술로, 대규모 AI 모델을 확장하는 데 필수적입니다. MNNVL은 이러한 분산 GPU에 걸쳐 공유 메모리 프로그래밍 모델을 가능하게 하여, 애플리케이션에는 단일의 거대한 GPU 패브릭으로 보이게 합니다. IMEX (Infiniband Memory Expansion)는 MNNVL을 용이하게 하는 기본 기술입니다. IMEX 지원 컴퓨팅 트레이는 NVIDIA의 고급 네트워킹을 활용하여 노드 간에 공유 GPU 메모리를 가능하게 하도록 설계되었습니다. MNNVL은 개발자를 위한 프로그래밍 모델을 단순화하지만, Mission Control은 IMEX 서비스가 MNNVL 작업과 올바르게 프로비저닝되고 동기화되도록 보장하여, 기본 복잡성을 최종 사용자에게 노출하지 않고 공유 GPU 메모리의 이점을 완전히 실현하는 데 중요한 역할을 합니다."
question: "랙 스케일 슈퍼컴퓨터에서 AI 워크로드를 위한 토폴로지 인식 스케줄링을 구현할 때의 주요 이점은 무엇인가요?" answer: "토폴로지 인식 스케줄링을 구현하면 랙 스케일 슈퍼컴퓨터에서 AI 워크로드에 대한 몇 가지 중요한 이점을 제공합니다. 첫째, 가장 높은 대역폭과 가장 낮은 지연 시간 연결을 가진 GPU에 작업을 지능적으로 배치하여 분산 AI 트레이닝에 내재된 통신 오버헤드를 최소화함으로써 최적의 성능을 보장합니다. 둘째, 이질적인 하드웨어 세그먼트에 걸쳐 작업이 비효율적으로 분산되는 것을 방지하여 자원 활용도를 높이고, 더 예측 가능한 성능과 더 나은 처리량을 제공합니다. 셋째, 워크로드 간에 명확한 격리 경계를 제공하면서 하드웨어 복잡성을 추상화하여 플랫폼 운영자를 위한 관리를 단순화하고 시스템 안정성과 보안을 향상시킵니다. 궁극적으로 토폴로지 인식 스케줄링은 복잡한 하드웨어를 고도로 효율적이고 확장 가능하며 관리하기 쉬운 'AI 팩토리'로 변환하여 연구 개발을 가속화하고 운영 부담을 줄입니다."
question: "NVIDIA Topograph는 슈퍼컴퓨터 토폴로지의 자동화된 발견 및 스케줄링에 어떻게 기여하나요?" answer: "NVIDIA Topograph는 랙 스케일 슈퍼컴퓨터 내에서 복잡한 NVLink 및 상호 연결 계층 구조의 발견을 자동화하는 중요한 구성 요소입니다. 대규모 시스템에 대한 상세한 토폴로지 정보를 수동으로 구성하고 유지 관리하는 것은 오류가 발생하기 쉽고 시간이 많이 걸리기 때문에 이러한 자동화된 발견은 필수적입니다. Topograph는 이 상세한 패브릭 정보를 Slurm 및 Kubernetes (NVIDIA DRA 및 ComputeDomains를 통해), 그리고 NVIDIA Run:ai와 같은 워크로드 스케줄러에 노출합니다. 스케줄러에게 하드웨어 토폴로지에 대한 정확하고 실시간 뷰를 제공함으로써 Topograph는 지능적이고 자동화된 배치 결정을 내릴 수 있도록 합니다. 이는 AI 워크로드가 처음부터 토폴로지 인식 방식으로 스케줄링되도록 보장하여 성능, 자원 할당 및 전반적인 시스템 효율성을 최적화하며, 이는 확장 가능한 AI 팩토리를 구축하고 운영하는 데 매우 중요합니다."

랙 스케일 AI 슈퍼컴퓨터: 하드웨어에서 토폴로지 인식 스케줄링까지

Decorative image.

인공지능의 지형은 빠르게 진화하고 있으며, 그 어느 때보다 강력하고 효율적인 컴퓨팅 인프라를 요구하고 있습니다. 이러한 진화의 최전선에는 가장 복잡한 AI 및 고성능 컴퓨팅(HPC) 워크로드를 가속화하도록 설계된 랙 스케일 슈퍼컴퓨터가 있습니다. 혁신적인 Blackwell 아키텍처를 기반으로 구축된 NVIDIA의 GB200 NVL72 및 GB300 NVL72 시스템은 방대한 GPU 패브릭과 고대역폭 네트워킹을 응집력 있고 강력한 장치로 통합하여 이 방향으로의 중요한 도약을 나타냅니다.

그러나 이러한 정교한 하드웨어를 배포하는 것은 독특한 과제를 제시합니다. 즉, 이 복잡한 물리적 토폴로지를 AI 개발자와 연구자를 위한 관리 가능하고 성능이 뛰어나며 접근 가능한 리소스로 어떻게 변환하느냐는 것입니다. 랙 스케일 하드웨어의 계층적 특성과 기존 워크로드 스케줄러의 종종 평면적인 추상화 사이의 근본적인 불일치는 병목 현상을 만듭니다. 바로 이 지점에서 NVIDIA Mission Control과 같은 검증된 소프트웨어 스택이 개입하여, 원시 컴퓨팅 파워를 원활한 토폴로지 인식 AI 팩토리로 전환하는 격차를 해소합니다.

NVIDIA Blackwell을 통한 차세대 랙 스케일 AI 슈퍼컴퓨팅

최첨단 NVIDIA Blackwell 아키텍처로 구동되는 NVIDIA GB200 NVL72 및 GB300 NVL72 시스템은 단순히 강력한 GPU 컬렉션이 아닙니다. 이들은 AI의 미래를 위해 설계된 통합 랙 스케일 슈퍼컴퓨터입니다. 각 시스템은 고급 NVLink 스위치로 연결된 18개의 긴밀하게 결합된 컴퓨팅 트레이를 특징으로 하며, 이는 거대한 GPU 패브릭을 형성합니다. 이 시스템은 랙 내에서 초고속 통신을 용이하게 하는 NVIDIA Multi-Node NVLink (MNNVL)를 지원하며, 노드 간에 공유 GPU 메모리를 가능하게 하는 IMEX 지원 컴퓨팅 트레이를 포함합니다. 이 아키텍처는 대규모 AI 모델을 트레이닝하고 배포하기 위한 비할 데 없는 기반을 제공하여, 과학적 발견에서 기업 AI 애플리케이션에 이르는 분야에서 가능한 것의 한계를 뛰어넘습니다.

이러한 Blackwell 기반 시스템의 설계 철학은 상호 연결된 GPU 간의 데이터 처리량을 최대화하고 대기 시간을 최소화하는 데 중점을 둡니다. 이는 모든 구성 요소가 공동 성능에 최적화된 조밀하게 통합된 하드웨어 스택을 통해 달성되어 AI 워크로드가 통신 병목 현상 없이 효율적으로 확장될 수 있도록 보장합니다.

하드웨어 토폴로지와 AI 스케줄러 추상화 연결

AI 아키텍트 및 HPC 플랫폼 운영자에게 진정한 과제는 이 고급 하드웨어를 단순히 획득하고 조립하는 것이 아니라, 이를 '안전하고 성능이 뛰어나며 사용하기 쉬운' 리소스로 운영하는 것입니다. 기존 스케줄러는 종종 동질적이고 평면적인 컴퓨팅 리소스 풀을 가정하고 작동합니다. 이러한 패러다임은 NVLink 패브릭 및 IMEX 도메인의 계층적이고 토폴로지 민감한 설계가 성능에 결정적인 랙 스케일 슈퍼컴퓨터에는 적합하지 않습니다. 적절한 통합 없이는 스케줄러가 의도치 않게 작업을 최적이 아닌 위치에 배치하여 효율성을 저하시키고 예측할 수 없는 성능을 초래할 수 있습니다.

바로 이 간극을 NVIDIA Mission Control이 메우도록 설계되었습니다. NVIDIA Grace Blackwell NVL72 시스템을 위한 견고한 랙 스케일 제어 플레인으로서, Mission Control은 기본 NVIDIA NVLink 및 NVIDIA IMEX 도메인에 대한 고유한 이해를 가지고 있습니다. 이러한 심층적인 인식은 Slurm 및 NVIDIA Run:ai와 같은 인기 있는 워크로드 관리 플랫폼과 지능적으로 통합할 수 있도록 합니다. 복잡한 하드웨어 토폴로지를 실행 가능한 스케줄링 정보로 변환함으로써 Mission Control은 Blackwell 아키텍처의 고급 기능이 완전히 활용되도록 보장하여, 정교한 하드웨어 어셈블리를 진정한 운영 AI 팩토리로 변환합니다. 이 기능은 NVIDIA Rubin NVL8을 포함한 다가오는 NVIDIA Vera Rubin 플랫폼으로 확장되어 고성능 AI 인프라에 대한 일관된 접근 방식을 더욱 공고히 할 것입니다.

AI 워크로드를 위한 NVLink 도메인 및 파티션 해독

Blackwell 시스템의 토폴로지 인식 스케줄링의 핵심은 시스템 수준 식별자인 클러스터 UUID 및 클러스터 ID를 통해 노출되는 NVLink 도메인 및 파티션 개념입니다. 이 식별자들은 물리적 NVLink 패브릭의 논리적 맵을 제공하여 시스템 소프트웨어와 스케줄러가 GPU의 위치와 연결성에 대해 추론할 수 있게 하므로 매우 중요합니다.

매핑은 간단하면서도 강력합니다.

클러스터 UUID는 NVLink 도메인에 해당합니다. 공유 클러스터 UUID는 시스템과 해당 GPU가 동일한 상위 NVLink 도메인에 속하며 공통 NVLink 패브릭으로 연결되어 있음을 의미합니다. Grace Blackwell NVL72의 경우, 이 UUID는 전체 랙에서 일관되며 물리적 근접성과 공유 고대역폭 연결을 나타냅니다.
클러스터 ID는 NVLink 파티션에 해당합니다. 클러스터 ID는 더 세분화된 구분을 제공하여 더 큰 도메인 내에서 NVLink 파티션을 공유하는 GPU 그룹을 식별합니다. 랙이 여러 NVLink 파티션으로 논리적으로 분할될 때 클러스터 UUID는 동일하게 유지되지만, 클러스터 ID는 이러한 더 작고 격리된 고대역폭 그룹을 구별합니다.

이러한 구분은 운영 관점에서 매우 중요합니다.

클러스터 UUID는 질문에 답합니다. 어떤 GPU가 물리적으로 랙을 공유하며 최고 속도로 NVLink 통신이 가능한가요?
클러스터 ID는 질문에 답합니다. 어떤 GPU가 NVLink 파티션을 공유하며 주어진 워크로드 또는 서비스 계층을 위해 함께 통신하도록 의도되어 고도로 병렬적인 작업을 위한 최적의 성능을 보장하나요?

이러한 식별자들은 Slurm, Kubernetes 및 NVIDIA Run:ai와 같은 플랫폼이 작업 배치, 격리 및 성능 보장을 NVLink 패브릭의 실제 구조와 일치시키면서 최종 사용자에게 기본 하드웨어 복잡성을 직접 노출하지 않고도 가능하게 하는 연결 조직입니다. NVIDIA Mission Control은 이러한 식별자들에 대한 중앙 집중식 보기를 제공하여 관리를 간소화합니다.

하드웨어 개념	소프트웨어 식별자	설명
NVLink 도메인	클러스터 UUID	랙 전체 NVLink 통신이 가능한, 랙을 물리적으로 공유하는 GPU를 식별합니다.
NVLink 파티션	클러스터 ID	특정 워크로드 또는 서비스 계층을 위해 NVLink 도메인 내에서 함께 통신하도록 의도된 GPU를 구분합니다.

Slurm을 통한 토폴로지 인식 AI 스케줄링

Blackwell 기반 NVL72 시스템에서 다중 노드 워크로드를 실행하는 경우, 배치는 할당된 GPU의 순수한 개수만큼 중요합니다. 예를 들어, 16개의 GPU를 필요로 하는 AI 트레이닝 작업은 단일 고대역폭 NVLink 패브릭 내에 제한되는 경우와 비교하여 여러 개의 연결성이 낮은 노드에 무질서하게 분산되는 경우 성능이 상당히 다르게 나타날 것입니다. 바로 이 지점에서 Slurm의 토폴로지/블록 플러그인이 필수적으로 작용하여, Slurm이 노드 간의 미묘한 연결성 차이를 인식할 수 있도록 합니다。

Grace Blackwell NVL72 시스템에서 대기 시간이 짧은 연결을 특징으로 하는 노드 블록은 전용 고대역폭 NVLink 패브릭으로 연결된 GPU 그룹인 NVLink 파티션에 직접 대응됩니다. 토폴로지/블록 플러그인을 활성화하고 이러한 NVLink 파티션을 개별 블록으로 노출함으로써 Slurm은 우수한 스케줄링 결정을 내리는 데 필요한 컨텍스트 지능을 얻습니다. 기본적으로 작업은 단일 NVLink 파티션(또는 블록) 내에 지능적으로 배치되어 중요한 Multi-Node NVLink (MNNVL) 성능을 보존합니다. 필요한 경우 더 큰 작업이 여러 블록에 걸쳐 확장될 수 있지만, 이러한 접근 방식은 우연이 아닌 명시적인 성능 절충을 만듭니다.

실제적인 관점에서 이것은 유연한 배포 전략을 가능하게 합니다.

랙당 하나의 블록/노드 그룹: 이 구성은 Slurm QoS(서비스 품질)가 공유 랙 전체 파티션에 대한 액세스를 관리하도록 허용하여 통합 리소스 관리에 이상적입니다.
랙당 여러 블록/노드 그룹: 이 접근 방식은 더 작고 격리된 고대역폭 GPU 풀을 제공하는 데 완벽합니다. 여기서 각 블록/노드 그룹은 전용 Slurm 파티션에 매핑되어, 효과적으로 개별 서비스 계층을 제공합니다. 사용자는 특정 Slurm 파티션을 활용하여 기본 패브릭의 복잡성을 이해할 필요 없이 의도된 NVLink 파티션 내에 작업을 자동으로 배치할 수 있습니다. 이러한 고급 리소스 관리는 AI 이니셔티브를 확장하려는 조직에 매우 중요하며, 모두를 위한 AI 확장이라는 더 넓은 목표와 일치합니다.

IMEX 및 Mission Control을 통한 MNNVL 워크로드 최적화

Multi-Node NVIDIA CUDA 워크로드는 종종 최대 성능을 달성하기 위해 MNNVL에 의존하며, 이를 통해 서로 다른 컴퓨팅 트레이의 GPU가 응집력 있는 공유 메모리 프로그래밍 모델에 참여할 수 있습니다. 애플리케이션 개발자의 관점에서 MNNVL을 활용하는 것은 겉으로 보기에는 간단해 보일 수 있지만, 그 밑의 오케스트레이션은 복잡합니다.

바로 이 지점에서 NVIDIA Mission Control이 중추적인 역할을 합니다. 이는 Slurm과 함께 MNNVL 작업을 실행할 때 중요한 구성 요소들이 완벽하게 정렬되도록 보장합니다. 특히 Mission Control은 공유 GPU 메모리를 용이하게 하는 IMEX 서비스가 MNNVL 작업에 참여하는 정확한 컴퓨팅 트레이 세트에서 실행되도록 보장합니다. 또한 이러한 고대역폭 MNNVL 연결을 설정하고 유지하는 데 필요한 NVSwitches가 올바르게 구성되도록 합니다. 이러한 조정은 랙 전반에 걸쳐 일관되고 예측 가능한 성능을 제공하는 데 필수적입니다. Mission Control의 지능적인 오케스트레이션 없이는 MNNVL 및 IMEX의 이점을 대규모로 실현하고 관리하기 어려울 것이며, 이는 고급 GPU 및 그 생태계를 위한 완전한 솔루션을 제공하려는 NVIDIA의 노력을 강조합니다.

자동화되고 확장 가능한 AI 인프라를 향하여

NVIDIA의 Blackwell 아키텍처와 Mission Control 및 Topograph와 같은 정교한 소프트웨어 계층의 통합은 진정으로 자동화되고 확장 가능한 AI 인프라를 구축하는 데 중요한 진전을 나타냅니다. NVIDIA Topograph는 복잡한 NVLink 및 상호 연결 계층 구조의 발견을 자동화하여, 이 중요한 정보를 Slurm, Kubernetes (NVIDIA DRA 및 ComputeDomains를 통해), 그리고 NVIDIA Run:ai와 같은 스케줄러에 노출합니다. 이는 토폴로지 관리의 수동 오버헤드를 제거하여 조직이 전례 없는 효율성으로 AI 워크로드를 배포하고 확장할 수 있도록 합니다.

스케줄러에게 하드웨어 토폴로지에 대한 심층적이고 실시간적인 이해를 제공함으로써, 이 통합된 접근 방식은 AI 애플리케이션이 최적의 리소스에서 실행되도록 보장하여 통신 지연 시간을 최소화하고 처리량을 최대화합니다. 그 결과는 가장 까다로운 AI 트레이닝 및 추론 작업을 처리할 수 있는 고성능, 탄력적이며 관리하기 쉬운 AI 팩토리입니다. AI 모델이 복잡성과 크기 면에서 계속 성장함에 따라, 랙 스케일 슈퍼컴퓨터에서 워크로드를 효과적으로 관리하고 스케줄링하는 능력은 혁신을 주도하고 경쟁 우위를 유지하는 데 가장 중요할 것입니다. 이러한 전체론적 전략은 기업 AI의 미래를 뒷받침하며, 원시 컴퓨팅 파워를 지능적이고 반응성이 높으며 고도로 효율적인 AI 슈퍼컴퓨팅으로 전환합니다.

원본 출처

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

자주 묻는 질문

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

랙 스케일 AI 슈퍼컴퓨터: 하드웨어에서 토폴로지 인식 스케줄링까지

랙 스케일 AI 슈퍼컴퓨터: 하드웨어에서 토폴로지 인식 스케줄링까지

NVIDIA Blackwell을 통한 차세대 랙 스케일 AI 슈퍼컴퓨팅

하드웨어 토폴로지와 AI 스케줄러 추상화 연결

AI 워크로드를 위한 NVLink 도메인 및 파티션 해독

Slurm을 통한 토폴로지 인식 AI 스케줄링

IMEX 및 Mission Control을 통한 MNNVL 워크로드 최적화

자동화되고 확장 가능한 AI 인프라를 향하여

자주 묻는 질문

최신 소식 받기