Code Velocity
Mô hình AI

Gemma 4: Mở rộng quy mô AI từ Trung tâm dữ liệu đến Thiết bị biên với NVIDIA

·5 phút đọc·NVIDIA·Nguồn gốc
Chia sẻ
Các mô hình NVIDIA Gemma 4 cho phép AI trên các thiết bị biên và trung tâm dữ liệu

Bức tranh trí tuệ nhân tạo đang phát triển nhanh chóng, với nhu cầu ngày càng tăng trong việc triển khai các mô hình AI tiên tiến không chỉ trong các trung tâm dữ liệu đám mây mà còn ở ngay biên của mạng và trực tiếp trên các thiết bị của người dùng. Sự thay đổi này được thúc đẩy bởi nhu cầu về độ trễ thấp hơn, quyền riêng tư được tăng cường, giảm chi phí vận hành và khả năng hoạt động trong môi trường có kết nối hạn chế. Để đáp ứng những yêu cầu thiết yếu này, NVIDIA và Google đã hợp tác giới thiệu các mô hình đa phương thức và đa ngôn ngữ Gemma 4 mới nhất, được thiết kế để mở rộng quy mô liền mạch từ các trung tâm dữ liệu NVIDIA Blackwell mạnh mẽ nhất xuống các thiết bị biên Jetson nhỏ gọn.

Những mô hình này đại diện cho một bước nhảy vọt đáng kể về hiệu quả và độ chính xác, biến chúng thành công cụ đa năng cho nhiều tác vụ AI phổ biến. Dòng Gemma 4 sẵn sàng định nghĩa lại cách AI được tích hợp vào các ứng dụng hàng ngày, mang đến những khả năng vượt xa giới hạn của việc triển khai AI cục bộ.

Gemma 4: Thúc đẩy AI đa phương thức và đa ngôn ngữ

Thế giới Gemma đã mở rộng với sự ra đời của bốn mô hình Gemma 4 mới, mỗi mô hình được thiết kế với các kịch bản triển khai cụ thể trong tâm trí, đồng thời cung cấp một bộ khả năng mạnh mẽ. Những mô hình này không chỉ về kích thước; chúng còn về thiết kế thông minh, mang lại hiệu suất mạnh mẽ trên nhiều thách thức AI khác nhau.

Các khả năng cốt lõi của mô hình Gemma 4 bao gồm:

  • Suy luận: Hiệu suất vượt trội trong các tác vụ giải quyết vấn đề phức tạp, cho phép ra quyết định tinh vi hơn.
  • Mã hóa: Các tính năng tạo mã và gỡ lỗi tiên tiến, tối ưu hóa quy trình làm việc của nhà phát triển.
  • Tác nhân: Hỗ trợ gốc cho việc sử dụng công cụ có cấu trúc, tạo điều kiện thuận lợi cho việc tạo ra các hệ thống AI tác nhân mạnh mẽ.
  • Khả năng Xử lý Thị giác, Âm thanh và Video: Tương tác đa phương thức phong phú cho các trường hợp sử dụng như nhận dạng đối tượng, nhận dạng giọng nói tự động (ASR), trí tuệ tài liệu và video.
  • Đầu vào Đa phương thức Xen kẽ: Khả năng tự do kết hợp văn bản và hình ảnh trong một lời nhắc duy nhất, mang lại tương tác tự nhiên và toàn diện hơn.
  • Hỗ trợ Đa ngôn ngữ: Hỗ trợ sẵn sàng cho hơn 35 ngôn ngữ, với việc đào tạo trước trên hơn 140 ngôn ngữ, mở rộng khả năng tiếp cận toàn cầu.

Dòng Gemma 4 bao gồm mô hình Mixture-of-Experts (MoE) đầu tiên trong dòng Gemma, được tối ưu hóa cho hiệu quả. Đáng chú ý, cả bốn mô hình đều có thể chạy trên một GPU NVIDIA H100 duy nhất, thể hiện thiết kế tối ưu của chúng. Các biến thể 31B và 26B A4B là các mô hình suy luận hiệu suất cao phù hợp cho cả môi trường cục bộ và trung tâm dữ liệu, trong khi các mô hình E4B và E2B được thiết kế đặc biệt cho các ứng dụng trên thiết bị và di động, kế thừa di sản của Gemma 3n.

Model NameArchitecture TypeTotal ParametersActive or Effective ParametersInput Context Length (Tokens)Sliding Window (Tokens)Modalities
Gemma-4-31BDense Transformer31B256K1024Text
Gemma-4-26B-A4BMoE – 128 Experts26B3.8B256KText
Gemma-4-E4BDense Transformer7.9B with embeddings4.5B effective128K512Text, Audio, Vision, Video
Gemma-4-E2BDense Transformer5.1B with embeddings2.3B effective128K512Text, Audio, Vision, Video

Bảng 1. Tổng quan về dòng mô hình Gemma 4, tóm tắt các loại kiến trúc, kích thước tham số, tham số hiệu quả, độ dài ngữ cảnh được hỗ trợ và các phương thức có sẵn để giúp các nhà phát triển chọn mô hình phù hợp cho việc triển khai tại trung tâm dữ liệu, biên và trên thiết bị.

Các mô hình này có sẵn trên Hugging Face với các điểm kiểm tra BF16. Đối với các nhà phát triển tận dụng GPU NVIDIA Blackwell, một điểm kiểm tra lượng tử hóa NVFP4 cho Gemma-4-31B có sẵn thông qua NVIDIA Model Optimizer để sử dụng với vLLM. Độ chính xác NVFP4 duy trì độ chính xác gần như giống hệt với độ chính xác 8-bit trong khi cải thiện đáng kể hiệu suất trên mỗi watt và giảm chi phí trên mỗi token, điều này rất quan trọng đối với việc triển khai quy mô lớn.

Đưa AI đến Thiết bị biên: Triển khai trên Thiết bị với Phần cứng NVIDIA

Khi các quy trình làm việc và tác nhân AI ngày càng trở nên không thể thiếu trong các hoạt động hàng ngày, khả năng chạy các mô hình này ngoài môi trường trung tâm dữ liệu truyền thống là tối quan trọng. NVIDIA cung cấp một hệ sinh thái toàn diện gồm các hệ thống máy khách và biên, từ GPU mạnh mẽ như GPU RTX đến các thiết bị Jetson chuyên dụng và DGX Spark, mang lại cho các nhà phát triển sự linh hoạt cần thiết để tối ưu hóa chi phí, độ trễ và bảo mật.

NVIDIA đã hợp tác với các khung suy luận hàng đầu như vLLM, Ollama và llama.cpp để đảm bảo trải nghiệm triển khai cục bộ tối ưu cho các mô hình Gemma 4. Ngoài ra, Unsloth cung cấp hỗ trợ ngay từ đầu với các mô hình được tối ưu hóa và lượng tử hóa, cho phép triển khai cục bộ hiệu quả thông qua Unsloth Studio. Hệ thống hỗ trợ mạnh mẽ này trao quyền cho các nhà phát triển triển khai AI tinh vi trực tiếp tại nơi cần thiết nhất.

DGX SparkJetsonRTX / RTX PRO
Trường hợp sử dụngNghiên cứu và tạo mẫu AIAI biên và robotỨng dụng máy tính để bàn và phát triển Windows
Điểm nổi bật chínhNgăn xếp phần mềm AI NVIDIA được cài đặt sẵn và 128 GB bộ nhớ hợp nhất cung cấp sức mạnh cho việc tạo mẫu cục bộ, tinh chỉnh và các quy trình làm việc OpenClaw hoàn toàn cục bộĐộ trễ gần bằng 0 nhờ các tính năng kiến trúc như tải tham số có điều kiện và nhúng từng lớp có thể được lưu vào bộ nhớ cache để tăng tốc và giảm sử dụng bộ nhớ ( thêm thông tin)Hiệu suất tối ưu cho suy luận cục bộ dành cho người có sở thích, nhà sáng tạo và chuyên gia
Hướng dẫn bắt đầuDGX Spark Playbooks cho các hướng dẫn triển khai vLLM, Ollama, Unsloth và llama.cpp
NeMo Automodel cho hướng dẫn tinh chỉnh trên Spark
Jetson AI Lab cho các hướng dẫn và container Gemma tùy chỉnhRTX AI Garage cho các hướng dẫn Ollama và llama.cpp. Chủ sở hữu RTX Pro cũng có thể sử dụng vLLM.

Bảng 2. So sánh các tùy chọn triển khai cục bộ trên các nền tảng NVIDIA, nêu bật các trường hợp sử dụng chính, khả năng chính và các tài nguyên khởi đầu được đề xuất cho các hệ thống DGX Spark, Jetson và RTX / RTX PRO chạy các mô hình Gemma 4.

Xây dựng quy trình làm việc tác nhân an toàn và Triển khai sẵn sàng cho doanh nghiệp

Đối với các nhà phát triển và những người đam mê AI, NVIDIA DGX Spark, với GB10 Grace Blackwell Superchip và 128 GB bộ nhớ hợp nhất, cung cấp các tài nguyên vô song. Nền tảng mạnh mẽ này lý tưởng để chạy mô hình Gemma 4 31B với trọng số BF16, cho phép tạo mẫu hiệu quả và xây dựng các quy trình làm việc AI tác nhân phức tạp trong khi vẫn đảm bảo thực thi riêng tư và an toàn trên thiết bị. Hệ điều hành DGX Linux và toàn bộ ngăn xếp phần mềm NVIDIA cung cấp một môi trường phát triển liền mạch.

Công cụ suy luận vLLM, được thiết kế để phân phát LLM thông lượng cao, tối đa hóa hiệu quả và giảm thiểu việc sử dụng bộ nhớ trên DGX Spark. Sự kết hợp này cung cấp một nền tảng hiệu suất cao để triển khai các mô hình Gemma 4 lớn nhất. Các nhà phát triển có thể tận dụng sách hướng dẫn vLLM để suy luận trên DGX Spark hoặc bắt đầu với Ollama hoặc llama.cpp. Hơn nữa, NeMo Automodel cho phép tinh chỉnh các mô hình này trực tiếp trên DGX Spark.

Đối với người dùng doanh nghiệp, NVIDIA NIM cung cấp một lộ trình để triển khai sẵn sàng sản xuất. Các nhà phát triển có thể tạo mẫu Gemma 4 31B bằng API NIM do NVIDIA lưu trữ từ danh mục API của NVIDIA. Để sản xuất quy mô đầy đủ, các dịch vụ siêu nhỏ NIM được đóng gói sẵn và tối ưu hóa có sẵn để triển khai tự lưu trữ an toàn, được hỗ trợ bởi Giấy phép Doanh nghiệp NVIDIA. Điều này đảm bảo rằng các doanh nghiệp có thể triển khai các giải pháp AI mạnh mẽ với sự tự tin, đáp ứng các yêu cầu bảo mật và vận hành nghiêm ngặt.

Nâng cao năng lực cho các tác nhân AI vật lý với NVIDIA Jetson

Các khả năng của các tác nhân AI vật lý hiện đại đang phát triển nhanh chóng, phần lớn là nhờ các mô hình Gemma 4 tích hợp âm thanh tinh vi, nhận thức đa phương thức và suy luận sâu sắc. Các mô hình tiên tiến này cho phép các hệ thống robot vượt ra ngoài việc thực thi tác vụ đơn giản, cấp cho chúng khả năng hiểu giọng nói, diễn giải ngữ cảnh trực quan và suy luận thông minh trước khi hành động.

Trên các nền tảng NVIDIA Jetson, các nhà phát triển có thể thực hiện suy luận Gemma 4 tại biên bằng cách sử dụng llama.cpp và vLLM. Ví dụ, Jetson Orin Nano hỗ trợ các biến thể Gemma 4 E2B và E4B, tạo điều kiện thuận lợi cho suy luận đa phương thức trên các hệ thống nhỏ, nhúng và bị hạn chế về năng lượng. Khả năng mở rộng này mở rộng trên toàn bộ nền tảng Jetson, lên đến Jetson Thor mạnh mẽ, cho phép triển khai mô hình nhất quán bất kể dấu chân phần cứng. Điều này rất quan trọng đối với các ứng dụng trong robot, máy thông minh và tự động hóa công nghiệp, nơi hiệu suất độ trễ thấp và trí thông minh trên thiết bị là tối quan trọng. Các nhà phát triển quan tâm đến việc khám phá các khả năng này có thể tìm thấy các hướng dẫn và container Gemma tùy chỉnh trên Jetson AI Lab.

Tùy chỉnh và Khả năng Tiếp cận Thương mại với NVIDIA NeMo

Để đảm bảo các mô hình Gemma 4 có thể được điều chỉnh cho các ứng dụng cụ thể và tập dữ liệu độc quyền, NVIDIA cung cấp khả năng tinh chỉnh mạnh mẽ thông qua khung NVIDIA NeMo. Thư viện NeMo Automodel, nói riêng, kết hợp sự dễ sử dụng của PyTorch gốc với hiệu suất tối ưu, làm cho quá trình tùy chỉnh trở nên dễ tiếp cận và hiệu quả.

Các nhà phát triển có thể tận dụng các kỹ thuật như tinh chỉnh có giám sát (SFT) và LoRA (Low-Rank Adaptation) hiệu quả bộ nhớ để thực hiện tinh chỉnh ngay từ đầu. Quá trình này bắt đầu trực tiếp từ các điểm kiểm tra mô hình Gemma 4 có sẵn trên Hugging Face, loại bỏ nhu cầu về các bước chuyển đổi rườm rà. Sự linh hoạt này cho phép các doanh nghiệp và nhà nghiên cứu truyền đạt kiến thức chuyên biệt vào các mô hình Gemma 4, đảm bảo độ chính xác và mức độ liên quan cao cho các tác vụ chuyên biệt.

Các mô hình Gemma 4 có sẵn trên toàn bộ nền tảng AI của NVIDIA và được cung cấp theo giấy phép Apache 2.0 thân thiện với thương mại. Giấy phép nguồn mở này tạo điều kiện thuận lợi cho việc áp dụng và tích hợp rộng rãi vào các sản phẩm và dịch vụ thương mại, trao quyền cho các nhà phát triển trên toàn thế giới đổi mới với AI tiên tiến. Từ hiệu suất của Blackwell đến sự phổ biến của các nền tảng Jetson, Gemma 4 được thiết lập để đưa AI tiên tiến đến gần hơn với mọi nhà phát triển và mọi thiết bị.

Câu hỏi thường gặp

What is Gemma 4 and what are its key advancements for AI deployment?
Gemma 4 represents the latest generation of multimodal and multilingual AI models from Google, designed for broad deployment across the entire NVIDIA hardware spectrum, from powerful Blackwell data centers to compact Jetson edge devices. Its key advancements include significantly improved efficiency and accuracy, making it suitable for diverse tasks like complex problem-solving, code generation, and agent tool use. These models boast rich multimodal capabilities, supporting interleaved text and images, and are pre-trained on over 140 languages. This versatility and scalability address the growing demand for local, secure, cost-efficient, and low-latency AI applications, pushing intelligence closer to the source of data and action.
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
Gemma 4 is specifically optimized to enable robust on-device and edge AI deployments, crucial for applications requiring low latency, enhanced privacy, and reduced operational costs. NVIDIA's comprehensive suite of client and edge systems—including RTX GPUs, DGX Spark, and Jetson devices—provides the necessary flexibility and performance. For instance, Jetson platforms support Gemma 4 E2B and E4B variants for multimodal inference on power-constrained embedded systems, while RTX GPUs offer optimized performance for local inference on desktops. Collaborations with vLLM, Ollama, llama.cpp, and Unsloth ensure efficient local deployment experiences across these diverse platforms, empowering developers to integrate advanced AI directly into their applications and devices.
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
NVIDIA DGX Spark provides a powerful platform for AI developers and enthusiasts to prototype and build secure, agentic AI workflows with Gemma 4. Featuring GB10 Grace Blackwell Superchips and 128 GB of unified memory, DGX Spark enables efficient running of even the largest Gemma 4 models with BF16 weights, maintaining private and secure on-device execution. The vLLM inference engine on DGX Spark further optimizes LLM serving for high throughput. For production deployment, NVIDIA NIM offers prepackaged and optimized microservices, providing a secure, self-hosted solution for enterprises with an NVIDIA Enterprise License. A hosted NIM API is also available in the NVIDIA API catalog for initial prototyping.
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
Developers can customize Gemma 4 models with their unique domain data using the NVIDIA NeMo framework, particularly the NeMo Automodel library. This powerful tool combines the ease of use of native PyTorch with optimized performance, allowing for efficient fine-tuning. Techniques such as supervised fine-tuning (SFT) and memory-efficient LoRA (Low-Rank Adaptation) can be applied directly to Gemma 4 model checkpoints available on Hugging Face, eliminating the need for cumbersome conversions. This enables day-zero fine-tuning, ensuring models are highly relevant and accurate for specialized applications and datasets, enhancing their utility across various industry verticals.
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Gemma 4 models are made highly accessible to developers and enterprises through the commercial-friendly Apache 2.0 license. This open-source license allows for broad use, modification, and distribution of the models, facilitating their integration into various commercial products and services without restrictive licensing fees. Furthermore, NVIDIA ensures wide availability across its entire AI platform, from Blackwell data centers to Jetson edge devices. Developers can get started immediately by accessing model checkpoints on Hugging Face, utilizing NVIDIA's extensive documentation and tutorials, and leveraging tools like vLLM, Ollama, and NeMo for deployment and customization, making advanced AI readily available for innovation.

Cập nhật tin tức

Nhận tin tức AI mới nhất qua email.

Chia sẻ