Code Velocity
AI 模型

Gemma 4:NVIDIA 将 AI 从数据中心扩展到边缘设备

·5 分钟阅读·NVIDIA·原始来源
分享
NVIDIA Gemma 4 模型在边缘设备和数据中心赋能 AI

title: "Gemma 4:NVIDIA 将 AI 从数据中心扩展到边缘设备" slug: "bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4" date: "2026-04-05" lang: "zh" source: "https://developer.nvidia.com/blog/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4/" category: "AI 模型" keywords:

  • Gemma 4
  • NVIDIA
  • 边缘 AI
  • 设备端 AI
  • 多模态 AI
  • 大型语言模型
  • AI 部署
  • Blackwell
  • Jetson
  • RTX
  • vLLM
  • NeMo meta_description: "探索 Gemma 4,NVIDIA 的多模态和多语言 AI 模型,旨在实现从 Blackwell 数据中心到 Jetson 边缘设备的无缝部署,为安全、低延迟的应用提供支持。" image: "/images/articles/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4.png" image_alt: "NVIDIA Gemma 4 模型在边缘设备和数据中心赋能 AI" quality_score: 94 content_score: 93 seo_score: 95 companies:
  • NVIDIA schema_type: "NewsArticle" reading_time: 5 faq:
  • question: "Gemma 4 是什么?它在 AI 部署方面有哪些关键进展?" answer: "Gemma 4 代表了 Google 最新一代的多模态和多语言 AI 模型,旨在 NVIDIA 硬件的整个范围内部署,从强大的 Blackwell 数据中心到紧凑的 Jetson 边缘设备。其关键进展包括显著提升的效率和准确性,使其适用于复杂问题解决、代码生成和智能体工具使用等多样化任务。这些模型拥有丰富多模态能力,支持文本和图像交错输入,并已在超过 140 种语言上进行了预训练。这种多功能性和可扩展性满足了对本地化、安全、经济高效且低延迟 AI 应用日益增长的需求,将智能推向数据和行动的源头。"
  • question: "Gemma 4 如何促进设备端和边缘 AI 部署,哪些 NVIDIA 平台支持它?" answer: "Gemma 4 经过专门优化,能够实现强大的设备端和边缘 AI 部署,这对于需要低延迟、增强隐私和降低运营成本的应用至关重要。NVIDIA 全面的客户端和边缘系统套件——包括 RTX GPU、DGX Spark 和 Jetson 设备——提供了必要的灵活性和性能。例如,Jetson 平台支持 Gemma 4 E2B 和 E4B 变体,用于在功耗受限的嵌入式系统上进行多模态推理,而 RTX GPU 则为桌面上的本地推理提供了优化性能。与 vLLM、Ollama、llama.cpp 和 Unsloth 的合作确保了在这些多样化平台上高效的本地部署体验,使开发者能够将先进的 AI 直接集成到他们的应用和设备中。"
  • question: "NVIDIA DGX Spark 和 NIM 在为企业开发和部署 Gemma 4 模型中扮演什么角色?" answer: "NVIDIA DGX Spark 为 AI 开发者和爱好者提供了一个强大的平台,可以利用 Gemma 4 构建安全的、智能体驱动的 AI 工作流程并进行原型设计。DGX Spark 采用 GB10 Grace Blackwell Superchips 和 128 GB 统一内存,能够高效运行最大的 Gemma 4 模型(使用 BF16 权重),同时保持私密和安全的设备端执行。DGX Spark 上的 vLLM 推理引擎进一步优化了大型语言模型 (LLM) 服务以实现高吞吐量。对于生产部署,NVIDIA NIM 提供预打包和优化的微服务,为拥有 NVIDIA 企业许可证的企业提供安全、自托管的解决方案。NVIDIA API 目录中也提供了托管的 NIM API,用于初步原型设计。"
  • question: "开发者如何针对特定领域数据微调 Gemma 4 模型,有哪些可用工具?" answer: "开发者可以使用 NVIDIA NeMo 框架,特别是 NeMo Automodel 库,利用其独特的领域数据定制 Gemma 4 模型。这个强大的工具结合了原生 PyTorch 的易用性与优化的性能,实现了高效的微调。监督式微调 (SFT) 和内存高效的 LoRA (低秩适应) 等技术可以直接应用于 Hugging Face 上可用的 Gemma 4 模型检查点,无需繁琐的转换。这使得零日微调成为可能,确保模型对于专业应用和数据集具有高度相关性和准确性,从而增强其在各个行业垂直领域中的实用性。"
  • question: "Gemma 4 模型的商业许可条款是什么,开发者如何获取它们?" answer: "Gemma 4 模型通过对商业友好的 Apache 2.0 许可证,使得开发者和企业能够高度便捷地获取。这个开源许可证允许广泛使用、修改和分发这些模型,促进它们集成到各种商业产品和服务中,而无需受限的许可费用。此外,NVIDIA 确保在整个 AI 平台,从 Blackwell 数据中心到 Jetson 边缘设备,都能广泛可用。开发者可以通过访问 Hugging Face 上的模型检查点,利用 NVIDIA 丰富的文档和教程,并利用 vLLM、Ollama 和 NeMo 等工具进行部署和定制,从而立即开始使用,使先进 AI 随时可用于创新。"

人工智能领域正在迅速发展,部署先进 AI 模型的需求日益增长,不仅限于云数据中心,更延伸至网络边缘和用户设备本身。这一转变是由于对更低延迟、增强隐私、降低运营成本以及在连接受限环境中运行能力的需求所驱动的。为满足这些关键要求,NVIDIA 和 Google 合作推出了最新的 **Gemma 4** 多模态和多语言模型,其设计旨在从最强大的 NVIDIA Blackwell 数据中心到紧凑的 Jetson 边缘设备实现无缝扩展。

这些模型在效率和准确性方面取得了显著飞跃,使其成为广泛 AI 常见任务的多功能工具。Gemma 4 系列有望重新定义 AI 如何融入日常应用,提供突破本地 AI 部署可能性的能力。

## Gemma 4:推进多模态和多语言 AI

随着四个新 Gemma 4 模型的推出,Gemma 生态系统得到了扩展,每个模型都针对特定的部署场景设计,同时提供了一套强大的功能。这些模型不仅仅关乎规模;它们更关乎智能设计,在多样化的 AI 挑战中展现出强大的性能。

Gemma 4 模型的核心能力包括:

*   **推理能力:** 在复杂问题解决任务上表现出色,实现更精密的决策。
*   **编码能力:** 先进的代码生成和调试功能,简化开发者工作流程。
*   **智能体能力:** 对结构化工具使用的原生支持,促进强大智能体 AI 系统的创建。
*   **视觉、音频和视频能力:** 丰富的多模态交互,适用于物体识别、自动语音识别 (ASR)、文档和视频智能等用例。
*   **交错多模态输入:** 能够在单个提示中自由混合文本和图像,提供更自然、更全面的交互。
*   **多语言支持:** 开箱即用支持超过 35 种语言,并在 140 多种语言上进行了预训练,扩大了全球可访问性。

Gemma 4 系列包括 Gemma 系列中首个专家混合 (MoE) 模型,专为效率而优化。值得注意的是,所有四个模型都可以在单个 NVIDIA H100 GPU 上运行,这展示了其优化的设计。31B 和 26B A4B 变体是适用于本地和数据中心环境的高性能推理模型,而 E4B 和 E2B 模型则专门为设备端和移动应用量身定制,延续了 Gemma 3n 的优势。

| 模型名称       | 架构类型  | 总参数 | 活跃或有效参数 | 输入上下文长度 (Tokens) | 滑动窗口 (Tokens) | 模态              |
| :--------------- | :----------------- | :--------------- | :----------------------------- | :---------------------------- | :---------------------- | :---------------------- |
| **Gemma-4-31B**  | Dense Transformer  | 31B              | —                              | 256K                          | 1024                    | Text                    |
| **Gemma-4-26B-A4B** | MoE – 128 Experts  | 26B              | 3.8B                           | 256K                          | —                       | Text                    |
| **Gemma-4-E4B**  | Dense Transformer  | 7.9B with embeddings | 4.5B effective                 | 128K                          | 512                     | Text, Audio, Vision, Video |
| **Gemma-4-E2B**  | Dense Transformer  | 5.1B with embeddings | 2.3B effective                 | 128K                          | 512                     | Text, Audio, Vision, Video |

*表 1. Gemma 4 模型家族概览,总结了架构类型、参数大小、有效参数、支持的上下文长度和可用模态,以帮助开发者为数据中心、边缘和设备端部署选择合适的模型。*

这些模型可在 Hugging Face 上以 BF16 检查点形式获取。对于利用 NVIDIA Blackwell GPU 的开发者,Gemma-4-31B 的 NVFP4 量化检查点可通过 [NVIDIA Model Optimizer](https://github.com/NVIDIA/Model-Optimizer) 获取,用于 vLLM。NVFP4 精度保持与 8 位精度几乎相同的准确性,同时显著提高每瓦性能并降低每个 token 的成本,这对于大规模部署至关重要。

## 将 AI 带到边缘:NVIDIA 硬件上的设备端部署

随着 AI 工作流程和智能体日益成为日常操作不可或缺的一部分,在传统数据中心环境之外运行这些模型的能力变得至关重要。NVIDIA 提供了一个全面的客户端和边缘系统生态系统,从强大的 [gpus](/zh/gpus)(如 RTX GPU)到专业的 Jetson 设备和 DGX Spark,为开发者提供了优化成本、延迟和安全所需的灵活性。

NVIDIA 已与 vLLM、Ollama 和 llama.cpp 等领先的推理框架合作,以确保 Gemma 4 模型获得最佳的本地部署体验。此外,Unsloth 提供了一日支持,包含优化和量化模型,通过 [Unsloth Studio](https://unsloth.ai/docs/models/gemma-4) 实现高效的本地部署。这一强大的支持系统使开发者能够将复杂的 AI 直接部署到最需要的地方。

|                               | **DGX Spark**                                                                                                                                                                                                                                                                                                  | **Jetson**                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        | **RTX / RTX PRO**                                                                                                                                                                                                                                                          |
| :---------------------------- | :----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **用例**                  | AI 研究与原型开发                                                                                                                                                                                                                                                                            | 边缘 AI 与机器人                                                                                                                                                                                                                                                                                                                                                                                                                                                                              | 桌面应用与 Windows 开发                                                                                                                                                                                                                                   |
| **主要亮点**            | 预装的 NVIDIA AI 软件栈和 128 GB 统一内存为本地原型开发、微调和完全本地化的 OpenClaw 工作流程提供强大支持                                                                                                                                                         | 由于条件参数加载和逐层嵌入等架构特性,可实现近乎零的延迟,这些嵌入可以缓存以加快速度并减少内存使用 ([更多信息](https://ai.google.dev/gemma/docs/gemma-3n))                                                                                                                                                                                                                                                                                                                                               | 为爱好者、创作者和专业人士的本地推理提供优化性能                                                                                                                                                                                                                      |
| **入门指南**     | [DGX Spark Playbooks](https://build.nvidia.com/spark) 提供 vLLM、Ollama、Unsloth 和 llama.cpp 部署指南<br/>[NeMo Automodel](https://github.com/NVIDIA-NeMo/Automodel/tree/main/docs/guides/vlm/gemma4.md) 提供 Spark 上的微调指南 | [Jetson AI Lab](https://www.jetson-ai-lab.com/models/) 提供教程和自定义 Gemma 容器                                                                                                                                                                                                                                                                                                                                                                                                                   | [RTX AI Garage](https://blogs.nvidia.com/blog/rtx-ai-garage-open-models-google-gemma-4) 提供 Ollama 和 llama.cpp 指南。RTX Pro 用户也可以使用 vLLM。                                                                                                                   |

*表 2. NVIDIA 平台本地部署选项对比,重点介绍了 DGX Spark、Jetson 和 RTX / RTX PRO 系统运行 Gemma 4 模型的主要用例、关键功能和推荐的入门资源。*

## 构建安全的智能体工作流程和企业级部署

对于 AI 开发者和爱好者来说,搭载 GB10 Grace Blackwell Superchip 和 128 GB 统一内存的 NVIDIA DGX Spark 提供了无与伦比的资源。这个强大的平台非常适合运行带有 BF16 权重的 Gemma 4 31B 模型,能够高效地进行原型设计和构建复杂的 [智能体 AI 工作流程](/zh/operationalizing-agentic-ai-part-1-a-stakeholders-guide),同时确保私密和安全的设备端执行。DGX Linux OS 和完整的 NVIDIA 软件栈提供了一个无缝的开发环境。

vLLM 推理引擎专为高吞吐量 LLM 服务而设计,可最大限度地提高 DGX Spark 上的效率并最大限度地减少内存使用。这种组合为部署最大的 Gemma 4 模型提供了高性能平台。开发者可以利用 [vLLM for Inference DGX Spark playbook](https://build.nvidia.com/spark/vllm),或从 Ollama 或 llama.cpp 入门。此外,NeMo Automodel 允许直接在 DGX Spark 上微调这些模型。

对于企业用户,NVIDIA NIM 为生产级部署提供了途径。开发者可以使用 [NVIDIA API catalog](https://catalog.ngc.nvidia.com/orgs/nim/teams/google/containers/gemma-4-31b-it) 中的 NVIDIA 托管 NIM API 来原型设计 Gemma 4 31B。对于全面生产,NIM 提供预打包和优化的微服务,支持安全、自托管部署,并由 NVIDIA 企业许可证提供支持。这确保企业能够自信地部署强大的 AI 解决方案,满足严格的安全和运营要求。

## 使用 NVIDIA Jetson 赋能物理 AI 智能体

现代物理 AI 智能体的能力正在迅速发展,这主要得益于 Gemma 4 模型集成了复杂的音频、多模态感知和深度推理能力。这些先进模型使机器人系统能够超越简单的任务执行,赋予它们理解语音、解释视觉上下文并在行动前进行智能推理的能力。

在 NVIDIA Jetson 平台上,开发者可以使用 llama.cpp 和 vLLM 在边缘执行 Gemma 4 推理。例如,Jetson Orin Nano 支持 Gemma 4 E2B 和 E4B 变体,促进在小型、嵌入式和功耗受限系统上的多模态推理。这种扩展能力覆盖整个 Jetson 平台,直至强大的 Jetson Thor,允许无论硬件占地面积如何,都能保持一致的模型部署。这对于机器人、智能机器和工业自动化等需要低延迟性能和设备端智能的应用至关重要。有兴趣探索这些能力的开发者可以在 [Jetson AI Lab](https://www.jetson-ai-lab.com/models/) 上找到教程和自定义 Gemma 容器。

## NVIDIA NeMo 实现定制化和商业可访问性

为确保 Gemma 4 模型能够针对特定应用和专有数据集进行定制,NVIDIA 通过 [NVIDIA NeMo 框架](https://github.com/NVIDIA-NeMo/) 提供了强大的微调能力。特别是 [NeMo Automodel](https://github.com/NVIDIA-NeMo/Automodel/tree/main/docs/guides/vlm/gemma4.md) 库,它结合了原生 PyTorch 的易用性和优化的性能,使得定制过程既便捷又高效。

开发者可以利用监督式微调 (SFT) 和内存高效的 LoRA (低秩适应) 等技术进行零日微调。此过程直接从 [Hugging Face](https://huggingface.co/collections/google/gemma-4) 上可用的 Gemma 4 模型检查点开始,无需繁琐的转换步骤。这种灵活性使企业和研究人员能够为 Gemma 4 模型注入领域特定知识,确保专业任务的高准确性和相关性。

Gemma 4 模型在整个 NVIDIA AI 平台上均可轻松获取,并以对商业友好的 Apache 2.0 许可证提供。这个开源许可证促进了模型的广泛采用和集成到商业产品及服务中,赋能全球开发者利用尖端 AI 进行创新。从 Blackwell 的卓越性能到 Jetson 平台的无处不在,Gemma 4 必将使先进 AI 更贴近每一位开发者和每一个设备。

常见问题

What is Gemma 4 and what are its key advancements for AI deployment?
Gemma 4 represents the latest generation of multimodal and multilingual AI models from Google, designed for broad deployment across the entire NVIDIA hardware spectrum, from powerful Blackwell data centers to compact Jetson edge devices. Its key advancements include significantly improved efficiency and accuracy, making it suitable for diverse tasks like complex problem-solving, code generation, and agent tool use. These models boast rich multimodal capabilities, supporting interleaved text and images, and are pre-trained on over 140 languages. This versatility and scalability address the growing demand for local, secure, cost-efficient, and low-latency AI applications, pushing intelligence closer to the source of data and action.
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
Gemma 4 is specifically optimized to enable robust on-device and edge AI deployments, crucial for applications requiring low latency, enhanced privacy, and reduced operational costs. NVIDIA's comprehensive suite of client and edge systems—including RTX GPUs, DGX Spark, and Jetson devices—provides the necessary flexibility and performance. For instance, Jetson platforms support Gemma 4 E2B and E4B variants for multimodal inference on power-constrained embedded systems, while RTX GPUs offer optimized performance for local inference on desktops. Collaborations with vLLM, Ollama, llama.cpp, and Unsloth ensure efficient local deployment experiences across these diverse platforms, empowering developers to integrate advanced AI directly into their applications and devices.
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
NVIDIA DGX Spark provides a powerful platform for AI developers and enthusiasts to prototype and build secure, agentic AI workflows with Gemma 4. Featuring GB10 Grace Blackwell Superchips and 128 GB of unified memory, DGX Spark enables efficient running of even the largest Gemma 4 models with BF16 weights, maintaining private and secure on-device execution. The vLLM inference engine on DGX Spark further optimizes LLM serving for high throughput. For production deployment, NVIDIA NIM offers prepackaged and optimized microservices, providing a secure, self-hosted solution for enterprises with an NVIDIA Enterprise License. A hosted NIM API is also available in the NVIDIA API catalog for initial prototyping.
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
Developers can customize Gemma 4 models with their unique domain data using the NVIDIA NeMo framework, particularly the NeMo Automodel library. This powerful tool combines the ease of use of native PyTorch with optimized performance, allowing for efficient fine-tuning. Techniques such as supervised fine-tuning (SFT) and memory-efficient LoRA (Low-Rank Adaptation) can be applied directly to Gemma 4 model checkpoints available on Hugging Face, eliminating the need for cumbersome conversions. This enables day-zero fine-tuning, ensuring models are highly relevant and accurate for specialized applications and datasets, enhancing their utility across various industry verticals.
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Gemma 4 models are made highly accessible to developers and enterprises through the commercial-friendly Apache 2.0 license. This open-source license allows for broad use, modification, and distribution of the models, facilitating their integration into various commercial products and services without restrictive licensing fees. Furthermore, NVIDIA ensures wide availability across its entire AI platform, from Blackwell data centers to Jetson edge devices. Developers can get started immediately by accessing model checkpoints on Hugging Face, utilizing NVIDIA's extensive documentation and tutorials, and leveraging tools like vLLM, Ollama, and NeMo for deployment and customization, making advanced AI readily available for innovation.

保持更新

将最新AI新闻发送到您的收件箱。

分享