title: "Siêu máy tính AI cấp tủ rack: Từ phần cứng đến lập lịch nhận biết cấu trúc liên kết" slug: "running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling" date: "2026-04-08" lang: "vi" source: "https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/" category: "AI cho Doanh nghiệp" keywords:

tải công việc AI
siêu máy tính cấp tủ rack
NVIDIA Blackwell
NVLink
lập lịch nhận biết cấu trúc liên kết
Slurm
NVIDIA Mission Control
Multi-Node NVLink (MNNVL)
IMEX
kiến trúc GPU
quản lý tài nguyên
AI cho doanh nghiệp meta_description: "Tìm hiểu cách các siêu máy tính NVIDIA Blackwell, kết hợp với Mission Control, cho phép lập lịch nhận biết cấu trúc liên kết cho tải công việc AI, tối ưu hóa hiệu suất trên các miền NVLink và IMEX." image: "/images/articles/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling.png" image_alt: "Tủ rack NVIDIA Grace Blackwell NVL72 minh họa các miền NVLink và IMEX cho siêu máy tính AI cấp tủ rack" quality_score: 94 content_score: 93 seo_score: 95 companies:
NVIDIA schema_type: "NewsArticle" reading_time: 7 faq:
question: "Hệ thống NVIDIA GB200 và GB300 NVL72 là gì, và kiến trúc Blackwell đóng vai trò như thế nào?" answer: "Hệ thống NVIDIA GB200 và GB300 NVL72 đại diện cho thế hệ siêu máy tính cấp tủ rack mới được thiết kế đặc biệt cho các tải công việc AI và HPC đòi hỏi cao. Các hệ thống này tận dụng kiến trúc NVIDIA Blackwell đột phá, tích hợp các kiến trúc GPU khổng lồ với mạng băng thông cao vào một đơn vị duy nhất, liên kết chặt chẽ. Kiến trúc Blackwell được thiết kế để mang lại hiệu suất và hiệu quả chưa từng có cho việc huấn luyện và suy luận, nổi bật với các bộ chuyển mạch NVLink tiên tiến, Multi-Node NVLink (MNNVL) để giao tiếp giữa các GPU, và các khay tính toán hỗ trợ IMEX tạo điều kiện cho bộ nhớ GPU được chia sẻ trên nhiều nút trong tủ rack. Thiết kế tích hợp này nhằm mục đích vượt qua các giới hạn của việc triển khai GPU truyền thống gắn với máy chủ, cung cấp một nền tảng liền mạch, có khả năng mở rộng cho các mô hình AI phức tạp."
question: "Thách thức chính trong việc lập lịch các tải công việc AI trên các siêu máy tính cấp tủ rack tiên tiến này là gì?" answer: "Thách thức cốt lõi nằm ở sự không khớp đáng kể giữa cấu trúc liên kết vật lý phức tạp, có phân cấp của siêu máy tính cấp tủ rack và các trừu tượng hóa thường đơn giản được trình bày bởi các bộ lập lịch tải công việc thông thường. Trong khi các hệ thống như NVIDIA GB200/GB300 NVL72 tự hào có các kiến trúc NVLink tinh vi và các miền IMEX, các bộ lập lịch thường chỉ nhìn nhận một nhóm GPU và nút phẳng. Điều này có thể dẫn đến phân bổ tài nguyên không hiệu quả, hiệu suất dưới mức tối ưu do tính cục bộ dữ liệu kém hoặc các nút thắt cổ chai giao tiếp, và tăng độ phức tạp trong vận hành cho các nhà điều hành nền tảng. Nếu không có lập lịch nhận biết cấu trúc liên kết, các lợi thế vốn có của việc tích hợp cấp tủ rack, chẳng hạn như kết nối băng thông cao, không thể được tận dụng hoàn toàn cho các tải công việc AI."
question: "NVIDIA Mission Control giải quyết các phức tạp trong vận hành của lập lịch AI cấp tủ rack như thế nào?" answer: "NVIDIA Mission Control hoạt động như một mặt phẳng điều khiển quan trọng, bắc cầu khoảng cách giữa cấu trúc liên kết phần cứng phức tạp của hệ thống NVIDIA Grace Blackwell NVL72 và nhu cầu của các nền tảng quản lý tải công việc như Slurm và NVIDIA Run:ai. Nó cung cấp sự hiểu biết sâu sắc, tự nhiên về các miền NVLink và IMEX, chuyển đổi các mối quan hệ phần cứng vật lý thành các định danh logic mà các bộ lập lịch có thể diễn giải. Bằng cách tập trung hóa chế độ xem về UUID Cụm và ID Nhóm, Mission Control cho phép định vị công việc chính xác, nhận biết cấu trúc liên kết, đảm bảo cách ly tải công việc phù hợp và đảm bảo hiệu suất nhất quán bằng cách căn chỉnh các tính toán với kiến trúc phần cứng cơ bản tối ưu. Điều này thực sự biến cơ sở hạ tầng thô thành một nhà máy AI hiệu quả, có thể quản lý được."
question: "Giải thích các khái niệm UUID Cụm và ID Nhóm trong ngữ cảnh cấu trúc liên kết NVLink và ý nghĩa vận hành của chúng." answer: "UUID Cụm và ID Nhóm là các định danh cấp hệ thống mã hóa vị trí của GPU trong kiến trúc NVLink, làm cho cấu trúc liên kết phức tạp trở nên dễ hiểu đối với phần mềm và bộ lập lịch hệ thống. UUID Cụm tương ứng với miền NVLink, cho biết rằng các hệ thống và GPU của chúng thuộc cùng một tủ rack vật lý và chia sẻ một kiến trúc NVLink chung. Đối với Grace Blackwell NVL72, UUID này nhất quán trên toàn bộ tủ rack. ID Nhóm cung cấp sự phân biệt chi tiết hơn, tương ứng với một Phân vùng NVLink. Các GPU chia sẻ cùng một ID Nhóm thuộc cùng một phân vùng logic trong miền đó. Về mặt vận hành, UUID Cụm trả lời câu hỏi GPU nào chia sẻ vật lý một tủ rack và có thể giao tiếp qua NVLink, trong khi ID Nhóm trả lời GPU nào chia sẻ một Phân vùng NVLink và được thiết kế để giao tiếp cùng nhau cho một tải công việc cụ thể, cho phép phân bổ tài nguyên chi tiết hơn và tối ưu hóa hiệu suất."
question: "Plugin topology/block của Slurm tăng cường việc định vị tải công việc AI trên hệ thống NVL72 như thế nào?" answer: "Plugin topology/block của Slurm rất cần thiết cho việc định vị tải công việc AI hiệu quả trên các hệ thống NVIDIA NVL72 bằng cách làm cho Slurm nhận biết rằng không phải tất cả các nút (hoặc GPU) đều bằng nhau về mặt kết nối và hiệu suất. Trên các hệ thống Grace Blackwell NVL72, các khối nút có kết nối độ trễ thấp hơn trực tiếp ánh xạ tới các phân vùng NVLink, là các nhóm GPU chia sẻ một kiến trúc NVLink băng thông cao. Bằng cách bật plugin này và hiển thị các phân vùng NVLink dưới dạng 'khối', Slurm có được ngữ cảnh cần thiết để đưa ra các quyết định định vị thông minh. Điều này đảm bảo rằng các công việc đa GPU được ưu tiên phân bổ trong một phân vùng NVLink duy nhất để duy trì hiệu suất MNNVL, ngăn ngừa sự suy giảm hiệu suất có thể xảy ra nếu các công việc được trải rộng bừa bãi trên các phân đoạn siêu máy tính khác nhau, ít kết nối hơn. Nó cho phép sử dụng tài nguyên tối ưu và hiệu suất dự đoán được cho các tác vụ AI đòi hỏi cao."
question: "Multi-Node NVLink (MNNVL) là gì, và IMEX tạo điều kiện cho nó như thế nào để chia sẻ bộ nhớ GPU?" answer: "Multi-Node NVLink (MNNVL) là một công nghệ then chốt cho phép các GPU trên các nút tính toán khác nhau trong một hệ thống cấp tủ rack giao tiếp trực tiếp với băng thông cao và độ trễ thấp, rất cần thiết để mở rộng quy mô các mô hình AI lớn. MNNVL cho phép một mô hình lập trình bộ nhớ chia sẻ trên các GPU phân tán này, làm cho nó xuất hiện với các ứng dụng như một kiến trúc GPU khổng lồ, duy nhất. IMEX (Infiniband Memory Expansion) là công nghệ cơ bản tạo điều kiện cho MNNVL. Các khay tính toán hỗ trợ IMEX được thiết kế để cho phép bộ nhớ GPU được chia sẻ trên các nút bằng cách tận dụng mạng tiên tiến của NVIDIA. Trong khi MNNVL đơn giản hóa mô hình lập trình cho các nhà phát triển, Mission Control đóng một vai trò quan trọng phía sau hậu trường để đảm bảo rằng các dịch vụ IMEX được cung cấp và đồng bộ hóa chính xác với các công việc MNNVL, đảm bảo rằng các lợi ích của bộ nhớ GPU được chia sẻ được hiện thực hóa đầy đủ mà không làm lộ các phức tạp cơ bản cho người dùng cuối."
question: "Những lợi ích chính của việc triển khai lập lịch nhận biết cấu trúc liên kết cho các tải công việc AI trên siêu máy tính cấp tủ rack là gì?" answer: "Việc triển khai lập lịch nhận biết cấu trúc liên kết mang lại một số lợi ích đáng kể cho các tải công việc AI trên siêu máy tính cấp tủ rack. Thứ nhất, nó đảm bảo hiệu suất tối ưu bằng cách định vị công việc một cách thông minh trên các GPU có kết nối băng thông cao nhất và độ trễ thấp nhất, giảm thiểu chi phí giao tiếp vốn có trong huấn luyện AI phân tán. Thứ hai, nó tăng cường sử dụng tài nguyên bằng cách ngăn chặn việc trải rộng công việc không hiệu quả trên các phân đoạn phần cứng khác nhau, dẫn đến hiệu suất dễ đoán hơn và thông lượng tốt hơn. Thứ ba, nó đơn giản hóa việc quản lý cho các nhà điều hành nền tảng bằng cách trừu tượng hóa các phức tạp phần cứng trong khi cung cấp ranh giới cách ly rõ ràng giữa các tải công việc, cải thiện sự ổn định và bảo mật của hệ thống. Cuối cùng, lập lịch nhận biết cấu trúc liên kết biến phần cứng phức tạp thành một 'nhà máy AI' cực kỳ hiệu quả, có khả năng mở rộng và dễ quản lý, đẩy nhanh nghiên cứu và phát triển đồng thời giảm gánh nặng vận hành."
question: "NVIDIA Topograph đóng góp như thế nào vào việc tự động khám phá và lập lịch cấu trúc liên kết siêu máy tính?" answer: "NVIDIA Topograph là một thành phần quan trọng tự động hóa việc khám phá hệ thống phân cấp NVLink và kết nối phức tạp trong các siêu máy tính cấp tủ rack. Việc khám phá tự động này rất cần thiết vì việc cấu hình và duy trì thông tin cấu trúc liên kết chi tiết thủ công cho các hệ thống quy mô lớn sẽ dễ mắc lỗi và tốn nhiều thời gian. Topograph tiết lộ thông tin kiến trúc chi tiết này cho các bộ lập lịch tải công việc, bao gồm Slurm và Kubernetes (thông qua NVIDIA DRA và ComputeDomains), cũng như NVIDIA Run:ai. Bằng cách cung cấp cho các bộ lập lịch chế độ xem chính xác và theo thời gian thực về cấu trúc liên kết phần cứng, Topograph cho phép chúng đưa ra các quyết định định vị thông minh, tự động. Điều này đảm bảo rằng các tải công việc AI được lập lịch theo cách nhận biết cấu trúc liên kết ngay từ đầu, tối ưu hóa hiệu suất, phân bổ tài nguyên và hiệu quả hệ thống tổng thể, điều này rất quan trọng để xây dựng và vận hành các nhà máy AI có khả năng mở rộng."

Siêu máy tính AI cấp tủ rack: Từ phần cứng đến lập lịch nhận biết cấu trúc liên kết

Decorative image.

Bối cảnh trí tuệ nhân tạo đang phát triển nhanh chóng, đòi hỏi cơ sở hạ tầng tính toán ngày càng mạnh mẽ và hiệu quả hơn. Đi đầu trong sự phát triển này là các siêu máy tính cấp tủ rack, được thiết kế để tăng tốc các tải công việc AI và tính toán hiệu năng cao (HPC) phức tạp nhất. Các hệ thống GB200 NVL72 và GB300 NVL72 của NVIDIA, được xây dựng trên kiến trúc Blackwell đổi mới, đại diện cho một bước nhảy vọt đáng kể theo hướng này, tích hợp các kiến trúc GPU khổng lồ và mạng băng thông cao vào các đơn vị mạnh mẽ, gắn kết.

Tuy nhiên, việc triển khai phần cứng tinh vi như vậy đặt ra một thách thức độc đáo: làm thế nào để bạn chuyển đổi cấu trúc liên kết vật lý phức tạp này thành một tài nguyên dễ quản lý, hiệu quả và dễ tiếp cận cho các nhà phát triển và nhà nghiên cứu AI? Sự không khớp cơ bản giữa bản chất phân cấp của phần cứng cấp tủ rack và các trừu tượng hóa thường phẳng của các bộ lập lịch tải công việc truyền thống tạo ra một nút thắt. Đây chính là nơi một ngăn xếp phần mềm đã được xác thực như NVIDIA Mission Control bước vào, bắc cầu khoảng cách để biến sức mạnh tính toán thô thành một nhà máy AI liền mạch, nhận biết cấu trúc liên kết.

Siêu máy tính AI cấp tủ rack thế hệ tiếp theo với NVIDIA Blackwell

Các hệ thống NVIDIA GB200 NVL72 và GB300 NVL72, được cung cấp bởi kiến trúc NVIDIA Blackwell tiên tiến, không chỉ đơn thuần là tập hợp các GPU mạnh mẽ; chúng là những siêu máy tính cấp tủ rack tích hợp, được thiết kế cho tương lai của AI. Mỗi hệ thống có 18 khay tính toán được ghép nối chặt chẽ, tạo thành một kiến trúc GPU khổng lồ được kết nối bằng các bộ chuyển mạch NVLink tiên tiến. Các hệ thống này hỗ trợ NVIDIA Multi-Node NVLink (MNNVL), tạo điều kiện cho giao tiếp tốc độ cực cao trong tủ rack, và bao gồm các khay tính toán hỗ trợ IMEX cho phép bộ nhớ GPU được chia sẻ trên các nút. Kiến trúc này cung cấp nền tảng vô song để huấn luyện và triển khai các mô hình AI quy mô lớn, đẩy ranh giới của những gì có thể đạt được trong các lĩnh vực từ khám phá khoa học đến các ứng dụng AI cho doanh nghiệp.

Triết lý thiết kế đằng sau các hệ thống dựa trên Blackwell này tập trung vào việc tối đa hóa thông lượng dữ liệu và giảm thiểu độ trễ giữa các gpus được kết nối. Điều này đạt được thông qua một ngăn xếp phần cứng tích hợp chặt chẽ, nơi mọi thành phần được tối ưu hóa cho hiệu suất tập thể, đảm bảo rằng các tải công việc AI có thể mở rộng hiệu quả mà không gặp phải các nút thắt cổ chai giao tiếp.

Kết nối cấu trúc liên kết phần cứng với các trừu tượng của bộ lập lịch AI

Đối với các kiến trúc sư AI và nhà điều hành nền tảng HPC, thách thức thực sự không chỉ là mua sắm và lắp ráp phần cứng tiên tiến này, mà còn là vận hành nó thành một tài nguyên 'an toàn, hiệu quả và dễ sử dụng'. Các bộ lập lịch truyền thống thường hoạt động dưới giả định về một nhóm tài nguyên tính toán đồng nhất, phẳng. Mô hình này không phù hợp với các siêu máy tính cấp tủ rack, nơi thiết kế phân cấp và nhạy cảm với cấu trúc liên kết của các kiến trúc NVLink và các miền IMEX là rất quan trọng đối với hiệu suất. Nếu không tích hợp đúng cách, các bộ lập lịch có thể vô tình đặt các tác vụ ở các vị trí không tối ưu, dẫn đến giảm hiệu quả và hiệu suất không thể đoán trước.

Đây chính là khoảng trống mà NVIDIA Mission Control được thiết kế để lấp đầy. Là một mặt phẳng điều khiển cấp tủ rack mạnh mẽ cho các hệ thống NVIDIA Grace Blackwell NVL72, Mission Control có sự hiểu biết tự nhiên về các miền NVIDIA NVLink và NVIDIA IMEX bên dưới. Nhận thức sâu sắc này cho phép nó tích hợp thông minh với các nền tảng quản lý tải công việc phổ biến như Slurm và NVIDIA Run:ai. Bằng cách chuyển đổi các cấu trúc liên kết phần cứng phức tạp thành thông tin lập lịch khả thi, Mission Control đảm bảo rằng các khả năng tiên tiến của kiến trúc Blackwell được tận dụng tối đa, biến một cụm phần cứng tinh vi thành một nhà máy AI thực sự hoạt động hiệu quả. Khả năng này sẽ mở rộng đến nền tảng NVIDIA Vera Rubin sắp tới, bao gồm NVIDIA Rubin NVL8, củng cố thêm một cách tiếp cận nhất quán đối với cơ sở hạ tầng AI hiệu suất cao.

Giải mã các Miền và Phân vùng NVLink cho các tải công việc AI

Cốt lõi của lập lịch nhận biết cấu trúc liên kết cho các hệ thống Blackwell là các khái niệm về miền và phân vùng NVLink, được thể hiện thông qua các định danh cấp hệ thống: UUID cụm và ID nhóm. Các định danh này rất quan trọng vì chúng cung cấp một bản đồ logic của kiến trúc NVLink vật lý, cho phép phần mềm hệ thống và bộ lập lịch lý giải về vị trí và khả năng kết nối của GPU.

Sự ánh xạ đơn giản nhưng mạnh mẽ:

UUID Cụm tương ứng với miền NVLink. Một UUID cụm được chia sẻ cho thấy rằng các hệ thống—và GPU của chúng—thuộc cùng một miền NVLink tổng thể và được kết nối bằng một kiến trúc NVLink chung. Đối với Grace Blackwell NVL72, UUID này nhất quán trên toàn bộ tủ rack, cho thấy sự gần gũi về vật lý và kết nối băng thông cao được chia sẻ.
ID Nhóm tương ứng với phân vùng NVLink. ID nhóm cung cấp sự phân biệt chi tiết hơn, xác định các nhóm GPU chia sẻ một Phân vùng NVLink trong một miền lớn hơn. Khi một tủ rack được phân đoạn logic thành nhiều phân vùng NVLink, UUID cụm vẫn giữ nguyên, nhưng các ID nhóm phân biệt các nhóm băng thông cao nhỏ hơn, bị cô lập này.

Sự phân biệt này rất quan trọng từ góc độ vận hành:

UUID Cụm trả lời câu hỏi: GPU nào chia sẻ vật lý một tủ rack và có khả năng giao tiếp NVLink với tốc độ cao nhất?
ID Nhóm trả lời: GPU nào chia sẻ một Phân vùng NVLink và được thiết kế để giao tiếp cùng nhau cho một tải công việc hoặc cấp dịch vụ nhất định, đảm bảo hiệu suất tối ưu cho các tác vụ song song cao?

Các định danh này là cầu nối, cho phép các nền tảng như Slurm, Kubernetes và NVIDIA Run:ai căn chỉnh việc định vị công việc, cách ly và đảm bảo hiệu suất với cấu trúc thực tế của kiến trúc NVLink, tất cả mà không làm lộ trực tiếp sự phức tạp của phần cứng cơ bản cho người dùng cuối. NVIDIA Mission Control cung cấp một cái nhìn tập trung về các định danh này, hợp lý hóa việc quản lý.

Khái niệm Phần cứng	Định danh Phần mềm	Mô tả
Miền NVLink	UUID Cụm	Xác định các GPU chia sẻ vật lý một tủ rack, có khả năng giao tiếp NVLink trên toàn tủ rack.
Phân vùng NVLink	ID Nhóm	Phân biệt các GPU được thiết kế để giao tiếp cùng nhau trong một miền NVLink cho một tải công việc hoặc cấp dịch vụ cụ thể.

Lập lịch AI nhận biết cấu trúc liên kết với Slurm

Đối với các tải công việc đa nút chạy trên các hệ thống NVL72 dựa trên Blackwell, việc định vị trở nên quan trọng như số lượng GPU được phân bổ. Một công việc huấn luyện AI yêu cầu 16 GPU, chẳng hạn, sẽ hoạt động khác biệt rất nhiều nếu được phân tán một cách ngẫu nhiên trên nhiều nút ít kết nối hơn so với việc được giới hạn trong một kiến trúc NVLink băng thông cao duy nhất. Đây là nơi plugin topology/block của Slurm chứng tỏ sự không thể thiếu, cho phép Slurm nhận ra sự khác biệt về kết nối tinh tế giữa các nút.

Trên các hệ thống Grace Blackwell NVL72, các khối nút có kết nối độ trễ thấp hơn trực tiếp tương ứng với các phân vùng NVLink—các nhóm GPU được hợp nhất bởi một kiến trúc NVLink băng thông cao chuyên dụng. Bằng cách bật plugin topology/block và hiển thị các phân vùng NVLink này dưới dạng các khối riêng biệt, Slurm có được trí thông minh theo ngữ cảnh cần thiết để đưa ra các quyết định lập lịch vượt trội. Theo mặc định, các công việc được đặt một cách thông minh trong một phân vùng NVLink (hoặc khối) duy nhất, do đó bảo toàn hiệu suất Multi-Node NVLink (MNNVL) quan trọng. Mặc dù các công việc lớn hơn vẫn có thể trải rộng trên nhiều khối nếu cần, nhưng cách tiếp cận này làm cho sự đánh đổi về hiệu suất trở nên rõ ràng, thay vì ngẫu nhiên.

Trong thực tế, điều này cho phép các chiến lược triển khai linh hoạt:

Một khối/nhóm nút mỗi tủ rack: Cấu hình này cho phép Slurm Quality of Service (QoS) quản lý quyền truy cập vào phân vùng chung, trên toàn tủ rack, lý tưởng cho việc quản lý tài nguyên tập trung.
Nhiều khối/nhóm nút mỗi tủ rack: Cách tiếp cận này hoàn hảo để cung cấp các nhóm GPU băng thông cao, nhỏ hơn, bị cô lập. Tại đây, mỗi khối/nhóm nút ánh xạ tới một phân vùng Slurm chuyên dụng, cung cấp hiệu quả một cấp dịch vụ riêng biệt. Người dùng sau đó có thể tận dụng một phân vùng Slurm cụ thể, tự động đặt các công việc của họ trong phân vùng NVLink dự định mà không cần hiểu các phức tạp kiến trúc bên dưới. Quản lý tài nguyên tiên tiến này rất quan trọng đối với các tổ chức muốn mở rộng sáng kiến AI của họ, phù hợp với mục tiêu rộng lớn hơn là mở rộng quy mô AI cho tất cả mọi người.

Tối ưu hóa tải công việc MNNVL với IMEX và Mission Control

Các tải công việc Multi-Node NVIDIA CUDA thường dựa vào MNNVL để đạt được hiệu suất tối đa, cho phép các GPU trên các khay tính toán khác nhau tham gia vào một mô hình lập trình bộ nhớ chia sẻ, gắn kết. Từ góc độ của nhà phát triển ứng dụng, việc tận dụng MNNVL có vẻ đơn giản một cách lừa dối, nhưng sự điều phối cơ bản lại phức tạp.

Đây là nơi NVIDIA Mission Control đóng một vai trò then chốt. Nó đảm bảo rằng các thành phần quan trọng được căn chỉnh hoàn hảo khi chạy các công việc MNNVL với Slurm. Cụ thể, Mission Control đảm bảo rằng dịch vụ IMEX—tạo điều kiện cho bộ nhớ GPU được chia sẻ—chạy trên chính xác tập hợp các khay tính toán tham gia vào công việc MNNVL. Nó cũng đảm bảo rằng các NVSwitch cần thiết được cấu hình đúng cách để thiết lập và duy trì các kết nối MNNVL băng thông cao này. Sự phối hợp này rất quan trọng để cung cấp hiệu suất nhất quán, có thể dự đoán được trên toàn tủ rack. Nếu không có sự điều phối thông minh của Mission Control, những lợi ích của MNNVL và IMEX sẽ khó có thể hiện thực hóa và quản lý ở quy mô lớn, làm nổi bật cam kết của NVIDIA trong việc cung cấp các giải pháp hoàn chỉnh cho các gpus tiên tiến và hệ sinh thái của chúng.

Hướng tới cơ sở hạ tầng AI tự động, có khả năng mở rộng

Việc tích hợp kiến trúc Blackwell của NVIDIA với các lớp phần mềm tinh vi như Mission Control và Topograph đánh dấu một bước tiến đáng kể trong việc tạo ra cơ sở hạ tầng AI thực sự tự động và có khả năng mở rộng. NVIDIA Topograph tự động hóa việc khám phá hệ thống phân cấp NVLink và kết nối phức tạp, tiết lộ thông tin quan trọng này cho các bộ lập lịch như Slurm, Kubernetes (thông qua NVIDIA DRA và ComputeDomains), và NVIDIA Run:ai. Điều này loại bỏ chi phí thủ công trong việc quản lý cấu trúc liên kết, cho phép các tổ chức triển khai và mở rộng quy mô các tải công việc AI với hiệu quả chưa từng có.

Bằng cách cung cấp cho các bộ lập lịch sự hiểu biết sâu sắc, theo thời gian thực về cấu trúc liên kết phần cứng, cách tiếp cận tích hợp này đảm bảo rằng các ứng dụng AI chạy trên các tài nguyên tối ưu, giảm thiểu độ trễ giao tiếp và tối đa hóa thông lượng. Kết quả là một nhà máy AI hiệu suất cao, kiên cường và dễ quản lý có khả năng xử lý các tác vụ huấn luyện và suy luận AI đòi hỏi khắt khe nhất. Khi các mô hình AI tiếp tục tăng trưởng về độ phức tạp và kích thước, khả năng quản lý và lập lịch hiệu quả các tải công việc trên siêu máy tính cấp tủ rack sẽ là yếu tố tối quan trọng để thúc đẩy đổi mới và duy trì lợi thế cạnh tranh. Chiến lược tổng thể này củng cố tương lai của AI cho doanh nghiệp, biến sức mạnh tính toán thô thành siêu máy tính AI thông minh, phản ứng nhanh và hiệu quả cao.

Nguồn gốc

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Câu hỏi thường gặp

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Cập nhật tin tức

Nhận tin tức AI mới nhất qua email.

Chia sẻ