Code Velocity
Bảo mật AI

Các Nhà máy AI Zero-Trust: Bảo mật Khối lượng công việc AI Bảo mật bằng TEEs

·7 phút đọc·NVIDIA·Nguồn gốc
Chia sẻ
Sơ đồ minh họa kiến trúc zero-trust bảo vệ khối lượng công việc AI bảo mật trong các nhà máy AI.

Sự phát triển nhanh chóng của AI đã đưa nó từ giai đoạn thử nghiệm vào trung tâm hoạt động của doanh nghiệp. Tuy nhiên, một trở ngại đáng kể vẫn còn: phần lớn dữ liệu doanh nghiệp quan trọng, bao gồm hồ sơ bệnh nhân cực kỳ nhạy cảm, nghiên cứu thị trường độc quyền và kiến thức kế thừa vô giá, nằm ngoài đám mây công cộng. Việc tích hợp thông tin nhạy cảm này với các mô hình AI tạo ra những lo ngại đáng kể về quyền riêng tư và niềm tin, thường làm chậm hoặc chặn hoàn toàn việc áp dụng AI.

Để thực sự khai thác tiềm năng của AI, các doanh nghiệp đang xây dựng "các nhà máy AI" – các hạ tầng chuyên biệt, hiệu suất cao được thiết kế để tạo ra trí tuệ ở quy mô lớn. Để những nhà máy này thành công với dữ liệu nhạy cảm và các mô hình độc quyền, chúng phải được xây dựng trên một nền tảng zero-trust vững chắc. Mô hình này quy định rằng không có thực thể nào, dù là người dùng, thiết bị hay ứng dụng, được tin cậy một cách ngầm định. Thay vào đó, tất cả các yêu cầu truy cập đều được xác thực và ủy quyền một cách nghiêm ngặt. Điều này đạt được thông qua Môi trường thực thi đáng tin cậy (TEEs) được thực thi bằng phần cứng và chứng thực mật mã, tạo ra một kiến trúc bảo mật loại bỏ sự tin cậy cố hữu trong hạ tầng máy chủ cơ bản. Bài viết này khám phá một phương pháp tiếp cận toàn diện, phác thảo kiến trúc tham chiếu của NVIDIA để tích hợp nền tảng zero-trust này vào các nhà máy AI hiện đại.

Thế khó về Niềm tin trong Nhà máy AI: Thách thức đa bên liên quan

Sự chuyển dịch sang triển khai các mô hình tiên tiến, thường là độc quyền, trên hạ tầng chia sẻ đã tạo ra một thế khó về niềm tin phức tạp, đa chiều giữa các bên liên quan chính trong hệ sinh thái nhà máy AI. "Sự thiếu tin cậy luân phiên" này về cơ bản bắt nguồn từ việc môi trường điện toán truyền thống không mã hóa dữ liệu trong khi nó đang được sử dụng.

  1. Chủ sở hữu mô hình so với Nhà cung cấp hạ tầng: Chủ sở hữu mô hình đầu tư mạnh vào việc phát triển các mô hình AI độc quyền, có trọng số và logic thuật toán đại diện cho tài sản trí tuệ đáng kể. Họ không thể tin tưởng một cách ngầm định rằng hệ điều hành máy chủ, hypervisor, hoặc thậm chí một quản trị viên gốc sẽ không kiểm tra, đánh cắp hoặc trích xuất các mô hình quý giá của họ khi triển khai trên hạ tầng chia sẻ.
  2. Nhà cung cấp hạ tầng so với Chủ sở hữu mô hình/Người thuê: Ngược lại, những người quản lý và vận hành phần cứng và các cụm Kubernetes – các nhà cung cấp hạ tầng – không thể mù quáng tin tưởng rằng khối lượng công việc của chủ sở hữu mô hình hoặc người thuê là lành tính. Luôn có nguy cơ mã độc, cố gắng leo thang đặc quyền hoặc vi phạm các ranh giới bảo mật máy chủ được nhúng trong các ứng dụng AI đã triển khai.
  3. Người thuê (Chủ sở hữu dữ liệu) so với Chủ sở hữu mô hình và Nhà cung cấp hạ tầng: Chủ sở hữu dữ liệu, những người cung cấp dữ liệu nhạy cảm và thường được quản lý chặt chẽ để cung cấp cho các mô hình AI, yêu cầu đảm bảo mạnh mẽ rằng thông tin của họ vẫn được bảo mật. Họ không thể tin tưởng rằng nhà cung cấp hạ tầng sẽ không xem dữ liệu của họ trong quá trình thực thi, cũng như không thể chắc chắn rằng nhà cung cấp mô hình sẽ không lạm dụng hoặc làm rò rỉ dữ liệu trong quá trình suy luận hoặc xử lý.

Sự thiếu tin cậy phổ biến này làm nổi bật một lỗ hổng nghiêm trọng: trong điện toán thông thường, dữ liệu không được mã hóa trong khi nó đang được xử lý tích cực. Điều này khiến dữ liệu nhạy cảm và các mô hình độc quyền bị lộ dưới dạng văn bản thuần túy trong bộ nhớ và có thể truy cập được bởi các quản trị viên hệ thống, tạo ra một hồ sơ rủi ro không thể chấp nhận được cho việc triển khai AI hiện đại.

Điện toán bảo mật & Container: Nền tảng của Niềm tin AI

Điện toán bảo mật nổi lên như một giải pháp then chốt cho thế khó về niềm tin sâu sắc này. Nó thay đổi cơ bản bối cảnh bảo mật bằng cách đảm bảo rằng dữ liệu và mô hình vẫn được bảo vệ bằng mật mã trong suốt vòng đời thực thi của chúng, không chỉ khi ở trạng thái nghỉ hoặc đang truyền tải. Điều này đạt được bằng cách tận dụng Môi trường thực thi đáng tin cậy (TEEs) được hỗ trợ bởi phần cứng, tạo ra các vùng bộ nhớ được mã hóa, cô lập nơi các tính toán nhạy cảm có thể diễn ra mà không bị lộ ra hệ điều hành máy chủ hoặc hypervisor.

Mặc dù điện toán bảo mật cung cấp nền tảng phần cứng quan trọng, nhưng Confidential Containers (CoCo) giúp vận hành mô hình bảo mật này đặc biệt cho môi trường Kubernetes. CoCo cho phép các pod Kubernetes chạy bên trong các TEE được hỗ trợ bởi phần cứng này mà không yêu cầu bất kỳ thay đổi hoặc viết lại nào đối với mã ứng dụng. Thay vì chia sẻ nhân máy chủ, mỗi pod được đóng gói một cách minh bạch trong một máy ảo (VM) nhẹ, cô lập bằng phần cứng, được cung cấp bởi Kata Containers. Phương pháp tiếp cận sáng tạo này bảo toàn các quy trình làm việc và công cụ gốc đám mây hiện có trong khi thực thi các ranh giới cô lập nghiêm ngặt, nâng cao bảo mật mà không ảnh hưởng đến sự linh hoạt trong vận hành.

Đối với các nhà cung cấp mô hình, mối đe dọa đánh cắp trọng số mô hình độc quyền là một mối quan tâm hàng đầu. CoCo trực tiếp giải quyết vấn đề này bằng cách loại bỏ hiệu quả hệ điều hành máy chủ và hypervisor khỏi phương trình tin cậy quan trọng. Khi một mô hình AI được triển khai trong Confidential Container, nó vẫn được mã hóa. Chỉ sau khi phần cứng xác minh toán học tính toàn vẹn và bảo mật của vùng bảo vệ TEE thông qua một quy trình được gọi là chứng thực từ xa, một Dịch vụ môi giới khóa (KBS) chuyên biệt mới giải phóng khóa giải mã cần thiết. Khóa này sau đó được chuyển giao độc quyền vào bộ nhớ được bảo vệ bên trong TEE, đảm bảo rằng trọng số mô hình không bao giờ bị lộ dưới dạng văn bản thuần túy cho môi trường máy chủ, ngay cả đối với các quản trị viên có đặc quyền cao.

Kiến trúc tham chiếu Zero-Trust của NVIDIA cho các Nhà máy AI bảo mật

NVIDIA, phối hợp với cộng đồng Confidential Containers mã nguồn mở, đã phát triển một kiến trúc tham chiếu toàn diện cho ngăn xếp phần mềm CoCo. Bản thiết kế này định nghĩa một phương pháp tiếp cận toàn diện, chuẩn hóa để xây dựng các nhà máy AI zero-trust trên hạ tầng phần cứng trần (bare-metal). Nó phác thảo một cách tỉ mỉ cách tích hợp các thành phần phần cứng và phần mềm tiên tiến để triển khai an toàn các mô hình tiên phong, bảo vệ cả dữ liệu nhạy cảm và tài sản trí tuệ của chúng khỏi bị lộ ra môi trường máy chủ.

Các trụ cột cốt lõi của kiến trúc mạnh mẽ này là:

Trụ cộtMô tả
Cốt lõi tin cậy phần cứngSử dụng Môi trường thực thi đáng tin cậy (TEEs) của CPU kết hợp với GPU bảo mật của NVIDIA (ví dụ: NVIDIA Hopper, NVIDIA Blackwell) cho các khối lượng công việc AI được mã hóa bộ nhớ, tăng tốc bằng phần cứng.
Môi trường chạy Kata ContainersGói các Pod Kubernetes tiêu chuẩn trong các Máy ảo tiện ích (UVMs) nhẹ, cô lập bằng phần cứng, cung cấp sự cô lập mạnh mẽ thay vì chia sẻ nhân máy chủ.
Môi trường khách siêu nhỏ được tăng cường bảo mậtSử dụng một hệ điều hành khách tối thiểu, không phân phối, với hệ thống tệp gốc được thu gọn và NVIDIA Runtime Container (NVRC) cho một hệ thống khởi tạo an toàn, giảm đáng kể bề mặt tấn công của VM.
Dịch vụ chứng thựcXác minh mật mã tính toàn vẹn của môi trường phần cứng trước khi giải phóng các khóa giải mã mô hình nhạy cảm hoặc bí mật cho khách, thường liên quan đến Dịch vụ môi giới khóa (KBS).
Vòng đời khối lượng công việc bảo mậtTạo điều kiện kéo an toàn các hình ảnh (container, mô hình, artifact) đã được mã hóa và ký trực tiếp vào bộ nhớ TEE được mã hóa, ngăn chặn việc bị lộ khi ở trạng thái nghỉ hoặc đang truyền, và cho phép các chính sách giao diện chi tiết.
Tích hợp Kubernetes gốc và GPU OperatorCho phép quản lý toàn bộ ngăn xếp bằng cách sử dụng các nguyên thủy Kubernetes tiêu chuẩn và NVIDIA GPU Operator, cho phép triển khai ứng dụng AI theo kiểu 'nâng và chuyển' mà không cần viết lại.

Kiến trúc này đảm bảo rằng các khối lượng công việc AI được hưởng lợi từ hiệu suất của GPU NVIDIA trong khi được đóng gói trong các ranh giới bảo mật bằng mật mã.

Hiểu mô hình đe dọa CoCo và ranh giới tin cậy trong Bảo mật AI

Confidential Containers (CoCo) hoạt động dưới một mô hình đe dọa được định nghĩa chặt chẽ. Trong mô hình này, toàn bộ lớp hạ tầng—bao gồm hệ điều hành máy chủ, hypervisor và có thể là cả nhà cung cấp dịch vụ đám mây—được coi là không đáng tin cậy một cách cố hữu. Giả định cơ bản này rất quan trọng đối với phương pháp tiếp cận zero-trust.

Thay vì dựa vào sự cảnh giác hoặc tính toàn vẹn của quản trị viên hạ tầng để thực thi các biện pháp kiểm soát bảo mật, CoCo chuyển ranh giới tin cậy chính sang Môi trường thực thi đáng tin cậy (TEEs) được hỗ trợ bởi phần cứng. Điều này có nghĩa là các khối lượng công việc AI thực thi trong các môi trường ảo hóa, được mã hóa, nơi nội dung bộ nhớ không thể đọc được đối với máy chủ. Quan trọng là, các bí mật nhạy cảm, chẳng hạn như khóa giải mã mô hình, chỉ được giải phóng sau khi môi trường thực thi đã chứng minh mật mã tính toàn vẹn và xác thực của nó thông qua chứng thực từ xa.

Tuy nhiên, điều cần thiết là phải hiểu rõ phạm vi chính xác của sự bảo vệ này—những gì CoCo bảo vệ và những gì nằm ngoài phạm vi của nó.

Những gì CoCo bảo vệ

CoCo cung cấp các đảm bảo mạnh mẽ về cả tính bảo mật và tính toàn vẹn trong quá trình thực thi các khối lượng công việc AI:

  1. Bảo vệ dữ liệu và mô hình: Mã hóa bộ nhớ là một nền tảng, ngăn chặn môi trường máy chủ truy cập dữ liệu nhạy cảm, trọng số mô hình độc quyền hoặc tải trọng suy luận trong khi khối lượng công việc đang hoạt động trong TEE.
  2. Tính toàn vẹn thực thi: Chứng thực từ xa đóng một vai trò quan trọng bằng cách xác minh rằng khối lượng công việc thực sự đang chạy trong một môi trường đáng tin cậy, không bị xâm phạm với các phép đo phần mềm dự kiến trước khi bất kỳ bí mật nhạy cảm hoặc khóa giải mã mô hình nào được giải phóng.
  3. Xử lý hình ảnh và lưu trữ an toàn: Các hình ảnh container được kéo, xác minh và giải nén trực tiếp trong môi trường khách được bảo mật, mã hóa. Điều này đảm bảo rằng hạ tầng máy chủ không thể kiểm tra hoặc can thiệp vào mã ứng dụng hoặc các tạo phẩm mô hình có giá trị tại bất kỳ thời điểm nào.
  4. Bảo vệ khỏi quyền truy cập cấp máy chủ: Kiến trúc này bảo vệ hiệu quả các khối lượng công việc khỏi các hành động đặc quyền của máy chủ. Các công cụ gỡ lỗi quản trị, kiểm tra bộ nhớ hoặc quét đĩa của máy chủ không thể làm lộ nội dung bảo mật của khối lượng công việc AI đang chạy.

Những gì CoCo không bảo vệ

Mặc dù rất hiệu quả, một số rủi ro và vector tấn công nằm ngoài phạm vi cố hữu của kiến trúc CoCo:

  1. Lỗ hổng ứng dụng: CoCo đảm bảo môi trường thực thi được xác minh và bảo mật, nhưng nó không tự động vá hoặc ngăn chặn các lỗ hổng trong chính mã ứng dụng AI. Nếu một ứng dụng có lỗi dẫn đến rò rỉ dữ liệu hoặc xử lý không chính xác, CoCo không thể giảm thiểu điều này.
  2. Tấn công từ chối dịch vụ (Availability Attacks): Trọng tâm chính của CoCo là tính bảo mật và tính toàn vẹn. Nó không trực tiếp ngăn chặn các cuộc tấn công từ chối dịch vụ (DoS) hoặc các cuộc tấn công sẵn sàng khác nhằm mục đích làm gián đoạn dịch vụ thay vì đánh cắp dữ liệu. Các biện pháp như hạ tầng dự phòng và bảo vệ cấp độ mạng vẫn là cần thiết.
  3. Bảo mật mạng: Dữ liệu đang truyền, bảo mật điểm cuối mạng và các lỗ hổng trong giao thức mạng nằm ngoài sự bảo vệ trực tiếp của TEE. Các kênh truyền thông an toàn (ví dụ: TLS/SSL) và phân đoạn mạng mạnh mẽ là các yêu cầu bổ sung. Để hiểu sâu hơn về bảo mật AI, hãy xem xét khám phá các chiến lược để ngăn chặn việc sử dụng AI độc hại.

Xây dựng Tương lai của AI Bảo mật

Hành trình của AI từ thử nghiệm đến sản xuất đòi hỏi một sự thay đổi mô hình trong bảo mật. Các doanh nghiệp không còn đơn thuần triển khai các mô hình; họ đang xây dựng các nhà máy AI phức tạp tạo ra trí tuệ ở quy mô lớn. Kiến trúc zero-trust của NVIDIA, được cung cấp bởi Confidential Containers và TEEs được hỗ trợ bằng phần cứng, cung cấp nền tảng quan trọng cho kỷ nguyên mới này. Bằng cách giải quyết một cách tỉ mỉ các thế khó về niềm tin vốn có và cung cấp các đảm bảo mật mã mạnh mẽ, các tổ chức có thể tự tin triển khai các mô hình độc quyền và xử lý dữ liệu nhạy cảm, đẩy nhanh việc áp dụng AI mà không ảnh hưởng đến bảo mật. Cách tiếp cận này không chỉ bảo vệ tài sản trí tuệ và thông tin cá nhân mà còn thúc đẩy một cấp độ tin cậy mới trên toàn bộ vòng đời phát triển và triển khai AI. Khi AI tiếp tục phát triển, việc tích hợp các khung bảo mật tiên tiến như vậy sẽ là tối quan trọng để hiện thực hóa toàn bộ tiềm năng biến đổi của nó. Hơn nữa, sự hợp tác chiến lược đang diễn ra giữa các nhà lãnh đạo ngành, chẳng hạn như AWS và NVIDIA tăng cường hợp tác chiến lược để đẩy nhanh AI, nhấn mạnh cam kết của ngành trong việc thúc đẩy các giải pháp AI an toàn và có thể mở rộng.

Câu hỏi thường gặp

What is a zero-trust AI factory and why is it important for enterprises?
A zero-trust AI factory is a high-performance infrastructure designed to manufacture intelligence at scale, built on the principle of 'never trust, always verify.' It eliminates implicit trust in the underlying host infrastructure by using hardware-enforced Trusted Execution Environments (TEEs) and cryptographic attestation. This is crucial for enterprises dealing with sensitive data (like patient records or market research) and proprietary AI models, as it mitigates risks of data exposure, intellectual property theft, and privacy concerns, thereby accelerating the adoption of AI into production environments. Its importance lies in enabling secure processing of highly confidential information.
What is the 'trust dilemma' in deploying AI models in shared infrastructure?
The trust dilemma in AI deployment arises from conflicting trust requirements among model owners, infrastructure providers, and data owners. Model owners fear IP theft from infrastructure providers; infrastructure providers worry about malicious workloads from model owners; and data owners need assurance that neither infrastructure nor model providers will misuse or expose their sensitive data during execution. This circular lack of trust is primarily due to data not being encrypted while in use in traditional computing environments, leaving it vulnerable to inspection by system administrators and hypervisors, creating significant security challenges.
How does confidential computing enhance the security of AI models and data?
Confidential computing addresses the core issue of data exposure by ensuring that data and AI models remain cryptographically protected throughout their entire execution lifecycle. Unlike traditional systems where data in use is unencrypted, confidential computing leverages hardware-backed Trusted Execution Environments (TEEs) to encrypt memory. This means sensitive data, model weights, and inference payloads are shielded from unauthorized access, even from privileged host software or administrators, significantly reducing the risk of intellectual property theft and data breaches during AI model inference and training and ensuring robust protection.
What are Confidential Containers (CoCo), and how do they operationalize confidential computing for Kubernetes?
Confidential Containers (CoCo) operationalize the benefits of confidential computing within Kubernetes environments. Instead of running standard Kubernetes pods directly on the host kernel, CoCo wraps each pod in a lightweight, hardware-isolated virtual machine (VM) using Kata Containers. This approach maintains cloud-native workflows while enforcing strong isolation. For AI, CoCo ensures that proprietary model weights remain encrypted until the hardware mathematically proves the enclave's security via remote attestation. A Key Broker Service then releases decryption keys only into this protected memory, preventing exposure to the host OS or hypervisor.
What are the core pillars of NVIDIA's reference architecture for zero-trust AI factories?
NVIDIA's reference architecture combines several crucial components to build robust zero-trust AI factories. Key pillars include a Hardware Root of Trust, utilizing CPU TEEs and NVIDIA confidential GPUs for memory-encrypted AI workloads; Kata Containers runtime for hardware-isolated Kubernetes pods; a Hardened Micro-Guest Environment with a minimal guest OS to reduce the attack surface; an Attestation Service to cryptographically verify hardware integrity before releasing secrets; a Confidential Workload Lifecycle for secure image pulling and deployment; and Native Kubernetes and GPU Operator Integration for seamless management and deployment without application rewrites.
What security aspects are *not* covered by Confidential Containers (CoCo)?
While CoCo provides strong confidentiality and integrity guarantees for data and model execution, it does not protect against all types of attacks. Specifically, CoCo does not address application vulnerabilities, meaning flaws within the AI application code itself that could be exploited. It also doesn't inherently prevent availability attacks, which aim to disrupt service rather than steal data. Furthermore, network security, such as protecting data in transit or securing network endpoints, remains outside CoCo's direct scope. These aspects require complementary security measures alongside the confidential computing framework for a complete security posture.

Cập nhật tin tức

Nhận tin tức AI mới nhất qua email.

Chia sẻ