What is a zero-trust AI factory and why is it important for enterprises?

A zero-trust AI factory is a high-performance infrastructure designed to manufacture intelligence at scale, built on the principle of 'never trust, always verify.' It eliminates implicit trust in the underlying host infrastructure by using hardware-enforced Trusted Execution Environments (TEEs) and cryptographic attestation. This is crucial for enterprises dealing with sensitive data (like patient records or market research) and proprietary AI models, as it mitigates risks of data exposure, intellectual property theft, and privacy concerns, thereby accelerating the adoption of AI into production environments. Its importance lies in enabling secure processing of highly confidential information.

What is the 'trust dilemma' in deploying AI models in shared infrastructure?

The trust dilemma in AI deployment arises from conflicting trust requirements among model owners, infrastructure providers, and data owners. Model owners fear IP theft from infrastructure providers; infrastructure providers worry about malicious workloads from model owners; and data owners need assurance that neither infrastructure nor model providers will misuse or expose their sensitive data during execution. This circular lack of trust is primarily due to data not being encrypted while in use in traditional computing environments, leaving it vulnerable to inspection by system administrators and hypervisors, creating significant security challenges.

How does confidential computing enhance the security of AI models and data?

Confidential computing addresses the core issue of data exposure by ensuring that data and AI models remain cryptographically protected throughout their entire execution lifecycle. Unlike traditional systems where data in use is unencrypted, confidential computing leverages hardware-backed Trusted Execution Environments (TEEs) to encrypt memory. This means sensitive data, model weights, and inference payloads are shielded from unauthorized access, even from privileged host software or administrators, significantly reducing the risk of intellectual property theft and data breaches during AI model inference and training and ensuring robust protection.

What are Confidential Containers (CoCo), and how do they operationalize confidential computing for Kubernetes?

Confidential Containers (CoCo) operationalize the benefits of confidential computing within Kubernetes environments. Instead of running standard Kubernetes pods directly on the host kernel, CoCo wraps each pod in a lightweight, hardware-isolated virtual machine (VM) using Kata Containers. This approach maintains cloud-native workflows while enforcing strong isolation. For AI, CoCo ensures that proprietary model weights remain encrypted until the hardware mathematically proves the enclave's security via remote attestation. A Key Broker Service then releases decryption keys only into this protected memory, preventing exposure to the host OS or hypervisor.

What are the core pillars of NVIDIA's reference architecture for zero-trust AI factories?

NVIDIA's reference architecture combines several crucial components to build robust zero-trust AI factories. Key pillars include a Hardware Root of Trust, utilizing CPU TEEs and NVIDIA confidential GPUs for memory-encrypted AI workloads; Kata Containers runtime for hardware-isolated Kubernetes pods; a Hardened Micro-Guest Environment with a minimal guest OS to reduce the attack surface; an Attestation Service to cryptographically verify hardware integrity before releasing secrets; a Confidential Workload Lifecycle for secure image pulling and deployment; and Native Kubernetes and GPU Operator Integration for seamless management and deployment without application rewrites.

What security aspects are *not* covered by Confidential Containers (CoCo)?

While CoCo provides strong confidentiality and integrity guarantees for data and model execution, it does not protect against all types of attacks. Specifically, CoCo does not address application vulnerabilities, meaning flaws within the AI application code itself that could be exploited. It also doesn't inherently prevent availability attacks, which aim to disrupt service rather than steal data. Furthermore, network security, such as protecting data in transit or securing network endpoints, remains outside CoCo's direct scope. These aspects require complementary security measures alongside the confidential computing framework for a complete security posture.

零信任AI工厂：利用TEE保护机密AI工作负载

title: "零信任AI工厂：利用TEE保护机密AI工作负载" slug: "building-a-zero-trust-architecture-for-confidential-ai-factories" date: "2026-03-25" lang: "zh" source: "https://developer.nvidia.com/blog/building-a-zero-trust-architecture-for-confidential-ai-factories/" category: "AI安全" keywords:

零信任
AI安全
机密计算
可信执行环境
TEE
NVIDIA
AI工厂
Kubernetes
机密容器
数据保护
模型安全
远程证明 meta_description: "探索如何利用NVIDIA的参考架构构建零信任AI工厂，借助机密容器（Confidential Containers）和TEE实现强大的AI安全和数据保护。" image: "/images/articles/building-a-zero-trust-architecture-for-confidential-ai-factories.png" image_alt: "图示一个零信任架构，用于保护AI工厂中的机密AI工作负载。" quality_score: 94 content_score: 93 seo_score: 95 companies:
NVIDIA schema_type: "NewsArticle" reading_time: 7 faq:
question: "什么是零信任AI工厂，它对企业为何重要？" answer: "零信任AI工厂是一种高性能基础设施，旨在大规模生产智能，其构建原则是‘永不信任，始终验证’。它通过使用硬件强制的可信执行环境（TEE）和加密证明，消除了对底层主机基础设施的隐式信任。这对于处理敏感数据（如患者记录或市场研究）和专有AI模型的企业至关重要，因为它能减轻数据泄露、知识产权盗窃和隐私问题的风险，从而加速AI在生产环境中的采用。其重要性在于能够安全地处理高度机密的信息。"
question: "在共享基础设施中部署AI模型面临的‘信任困境’是什么？" answer: "AI部署中的信任困境源于模型所有者、基础设施提供商和数据所有者之间相互冲突的信任要求。模型所有者担心其知识产权会被基础设施提供商窃取；基础设施提供商担心模型所有者会带来恶意工作负载；而数据所有者则需要确保基础设施和模型提供商都不会在执行期间滥用或泄露他们的敏感数据。这种循环性的信任缺失主要是因为在传统计算环境中，数据在使用时未加密，这使得系统管理员和管理程序可以检查数据，从而带来了重大的安全挑战。"
question: "机密计算如何增强AI模型和数据的安全性？" answer: "机密计算通过确保数据和AI模型在其整个执行生命周期中都受到加密保护，从而解决了数据暴露的核心问题。与传统系统中正在使用的数据未加密不同，机密计算利用硬件支持的可信执行环境（TEE）来加密内存。这意味着敏感数据、模型权重和推理负载受到保护，免受未经授权的访问，即使是特权主机软件或管理员也无法访问，从而显著降低了AI模型推理和训练期间知识产权盗窃和数据泄露的风险，确保了强大的保护。"
question: "什么是机密容器（CoCo），它们如何为Kubernetes实现机密计算？" answer: "机密容器（CoCo）在Kubernetes环境中实现了机密计算的优势。CoCo不再将标准的Kubernetes Pod直接运行在主机内核上，而是使用Kata Containers将每个Pod封装在一个轻量级的、硬件隔离的虚拟机（VM）中。这种方法在保持云原生工作流程的同时，强制执行了强大的隔离。对于AI而言，CoCo确保专有模型权重保持加密状态，直到硬件通过远程证明数学地证明了安全区的安全性。然后，密钥代理服务（Key Broker Service）只会将解密密钥释放到这个受保护的内存中，从而防止其暴露给主机操作系统或管理程序。"
question: "NVIDIA零信任AI工厂参考架构的核心支柱是什么？" answer: "NVIDIA的参考架构结合了多个关键组件，以构建强大的零信任AI工厂。其核心支柱包括：硬件信任根（Hardware Root of Trust），利用CPU TEE和NVIDIA机密GPU实现内存加密的AI工作负载；Kata Containers运行时，用于硬件隔离的Kubernetes Pod；强化微型客户机环境（Hardened Micro-Guest Environment），采用最小化客户机操作系统以减少攻击面；证明服务（Attestation Service），在释放秘密之前加密验证硬件完整性；机密工作负载生命周期（Confidential Workload Lifecycle），用于安全地拉取加密和签名的镜像（容器、模型、工件）到加密的TEE内存中，防止在静止或传输过程中暴露，并支持细粒度的接口策略；以及原生Kubernetes和GPU操作符集成（Native Kubernetes and GPU Operator Integration），实现无缝管理和部署，无需重写应用程序。"
question: "机密容器（CoCo）未涵盖哪些安全方面？" answer: "尽管CoCo为数据和模型执行提供了强大的机密性和完整性保证，但它并不能防御所有类型的攻击。具体来说，CoCo不处理应用程序漏洞，即AI应用程序代码本身可能被利用的缺陷。它本身也无法阻止可用性攻击，这类攻击旨在中断服务而非窃取数据。此外，网络安全，如保护传输中的数据或保护网络端点，也不在CoCo的直接范围内。这些方面需要与机密计算框架相结合的补充安全措施，以实现完整的安全态势。"

AI的快速发展已将其从实验阶段推向企业运营的核心。然而，一个重大障碍依然存在：绝大多数关键企业数据，包括高度敏感的患者记录、专有的市场研究和宝贵的遗留知识，都位于公共云之外。将这些敏感信息与AI模型集成，会引发重大的隐私和信任问题，这往往会减缓甚至完全阻碍AI的采用。

为了真正释放AI的潜力，企业正在构建“AI工厂”——一种专门的、高性能基础设施，旨在大规模生成智能。这些工厂若要成功处理敏感数据和专有模型，就必须建立在坚定不移的零信任基础之上。这种范式要求任何实体，无论是用户、设备还是应用程序，都不能被隐式信任。相反，所有访问请求都必须经过严格的身份验证和授权。这通过硬件强制的可信执行环境（TEE）和加密证明来实现，从而创建了一个消除对底层主机基础设施固有信任的安全架构。本文将探讨一种全栈方法，概述NVIDIA如何将这种零信任基础集成到现代AI工厂的参考架构。

AI工厂的信任困境：多方利益相关者的挑战

在共享基础设施上部署先进的前沿模型（通常是专有的）的转变，在AI工厂生态系统的主要利益相关者之间引入了一个复杂多维的信任困境。这种“循环性的信任缺失”根本上源于传统计算环境在使用数据时未能对其进行加密。

模型所有者 vs. 基础设施提供商： 模型所有者在开发专有AI模型上投入巨大，其权重和算法逻辑代表着重要的知识产权。当这些模型部署在共享基础设施上时，他们不能隐式信任主机操作系统、管理程序甚至根管理员不会检查、窃取或提取他们宝贵的模型。
基础设施提供商 vs. 模型所有者/租户： 反之，管理和操作硬件及Kubernetes集群的基础设施提供商，也不能盲目信任模型所有者或租户的工作负载是良性的。始终存在恶意代码、特权升级尝试或部署的AI应用程序中嵌入的主机安全边界被突破的风险。
租户（数据所有者） vs. 模型所有者和基础设施提供商： 数据所有者提供敏感且通常受监管的数据来驱动AI模型，他们要求获得强有力的保证，确保其信息保持机密。他们不能信任基础设施提供商在执行期间不会查看他们的数据，也不能确定模型提供商在推理或处理期间不会滥用或泄露数据。

这种普遍存在的信任缺失凸显了一个关键漏洞：在传统计算中，数据在主动处理时并未加密。这使得敏感数据和专有模型以明文形式暴露在内存中，并可被系统管理员访问，为现代AI部署带来了不可接受的风险。

机密计算与容器：AI信任的基础

机密计算成为解决这一深刻信任困境的关键方案。它通过确保数据和模型在其整个执行生命周期中（而不仅仅是静止或传输中）都受到加密保护，从而从根本上改变了安全格局。这是通过利用硬件支持的可信执行环境（TEE）来实现的，这些环境创建了隔离的、加密的内存区域，敏感计算可以在其中进行，而不会暴露给主机操作系统或管理程序。

尽管机密计算提供了关键的硬件基础，但**机密容器（CoCo）**专门为Kubernetes环境实现了这种安全范式。CoCo允许Kubernetes Pods在这些硬件支持的TEE内部运行，而无需对应用程序代码进行任何更改或重写。CoCo不是共享主机内核，而是使用Kata Containers将每个Pod透明地封装在一个轻量级、硬件隔离的虚拟机（VM）中。这种创新方法在保留现有云原生工作流程和工具的同时，强制执行严格的隔离边界，在不损害操作敏捷性的前提下提升了安全性。

对于模型提供商而言，专有模型权重被盗的威胁是首要关注的问题。CoCo通过有效地将主机操作系统和管理程序从关键信任等式中移除，直接解决了这一问题。当AI模型部署在机密容器中时，它保持加密状态。只有在硬件通过称为远程证明的过程数学地验证了TEE安全区的完整性和安全性之后，专门的密钥代理服务（KBS）才会释放必要的解密密钥。然后，此密钥会专门传递到TEE内部的受保护内存中，确保模型权重永远不会以明文形式暴露给主机环境，即使是具有高权限的管理员也无法访问。

NVIDIA用于安全AI工厂的零信任参考架构

NVIDIA与开源的Confidential Containers社区合作，为CoCo软件栈开发了一个全面的参考架构。该蓝图定义了一种标准化、全栈的方法，用于在裸机基础设施上构建零信任AI工厂。它详细阐述了如何集成尖端硬件和软件组件以安全部署前沿模型，保护其敏感数据和知识产权免受主机环境的暴露。

这种强大架构的核心支柱是：

支柱	描述
硬件信任根	利用CPU可信执行环境（TEE）与NVIDIA机密GPU（例如NVIDIA Hopper、NVIDIA Blackwell）结合，实现硬件加速、内存加密的AI工作负载。
Kata Containers 运行时	将标准Kubernetes Pod封装在轻量级、硬件隔离的实用虚拟机（UVM）中，提供强大的隔离而非共享主机内核。
强化微型客户机环境	采用无发行版、最小化的客户机操作系统，具有精简的根文件系统和NVIDIA运行时容器（NVRC），作为安全的初始化系统，大幅减少了虚拟机的攻击面。
证明服务	在向客户机释放敏感模型解密密钥或秘密之前，加密验证硬件环境的完整性，通常涉及密钥代理服务（KBS）。
机密工作负载生命周期	促进将加密和签名的镜像（容器、模型、工件）安全地直接拉取到加密的TEE内存中，防止在静止或传输过程中暴露，并支持细粒度的接口策略。
原生Kubernetes和GPU操作符集成	支持使用标准Kubernetes原语和NVIDIA GPU操作符管理整个堆栈，从而实现AI应用程序的“迁移和转移”部署，无需重写。

这种架构确保AI工作负载在加密安全边界内封装的同时，能够受益于NVIDIA GPU的性能。

理解CoCo威胁模型与AI安全中的信任边界

机密容器（CoCo）在一个严格定义的威胁模型下运行。在该模型中，整个基础设施层——包括主机操作系统、管理程序，以及潜在的云提供商本身——都被视为本质上不可信。这一基本假设对于零信任方法至关重要。

CoCo并非依赖基础设施管理员的警惕性或诚信来执行安全控制，而是战略性地将主要信任边界转移到硬件支持的可信执行环境（TEE）。这意味着AI工作负载在加密的虚拟化环境中执行，其中内存内容对主机而言是不可见的。至关重要的是，敏感秘密（例如模型解密密钥）仅在执行环境通过远程证明以加密方式证实其完整性和真实性后才会被释放。

然而，理解这种保护的精确范围至关重要——CoCo保护什么，以及什么仍然超出了它的范围。

CoCo保护什么

CoCo在AI工作负载执行期间为机密性和完整性提供了强大的保证：

数据和模型保护： 内存加密是基石，可防止主机环境在工作负载在TEE内部活跃运行时访问敏感数据、专有模型权重或推理负载。
执行完整性： 远程证明通过验证工作负载确实在受信任、未受损的环境中以预期的软件测量值运行，然后才释放任何敏感秘密或模型解密密钥，从而发挥了关键作用。
安全镜像和存储处理： 容器镜像直接在安全、加密的客户机环境中拉取、验证和解包。这确保主机基础设施在任何时候都不能检查或篡改应用程序代码或有价值的模型工件。
防止主机级访问： 该架构有效地保护工作负载免受特权主机操作的影响。主机管理员的调试工具、内存检查或磁盘抓取无法暴露正在运行的AI工作负载的机密内容。

CoCo不保护什么

尽管CoCo非常有效，但某些风险和攻击向量超出了CoCo架构的固有范围：

应用程序漏洞： CoCo确保了经过验证的机密执行环境，但它本身不能修补或阻止AI应用程序代码本身的漏洞。如果应用程序存在导致数据泄露或处理不正确的错误，CoCo无法缓解此问题。
可用性攻击： CoCo主要关注机密性和完整性。它不能直接阻止旨在中断服务而非窃取数据的拒绝服务（DoS）或其他可用性攻击。冗余基础设施和网络级保护等措施仍然是必要的。
网络安全： 传输中的数据、网络端点安全以及网络协议中的漏洞，均超出了TEE的直接保护范围。安全的通信通道（例如TLS/SSL）和强大的网络分段是补充性要求。要深入了解AI安全，可以考虑探索颠覆恶意AI使用的策略。

构建安全的AI未来

AI从实验走向生产的历程，要求安全领域发生范式转变。企业不再仅仅是部署模型；他们正在构建复杂的AI工厂，大规模地生产智能。NVIDIA的零信任架构，由机密容器和硬件支持的TEE驱动，为这个新时代提供了关键基础。通过精心解决固有的信任困境并提供强大的加密保证，组织可以自信地部署专有模型和处理敏感数据，在不损害安全的前提下加速AI的采用。这种方法不仅保护了知识产权和私人信息，还在整个AI开发和部署生命周期中培养了新的信任水平。随着AI的不断发展，集成此类先进安全框架对于实现其全面、变革性的潜力至关重要。此外，行业领导者之间持续的战略合作，例如AWS和NVIDIA深化战略合作以加速AI从试点到生产，凸显了行业致力于推进安全和可扩展AI解决方案的决心。