Bức tranh trí tuệ nhân tạo đang phát triển nhanh chóng, với nhu cầu ngày càng tăng trong việc triển khai các mô hình AI tiên tiến không chỉ trong các trung tâm dữ liệu đám mây mà còn ở ngay biên của mạng và trực tiếp trên các thiết bị của người dùng. Sự thay đổi này được thúc đẩy bởi nhu cầu về độ trễ thấp hơn, quyền riêng tư được tăng cường, giảm chi phí vận hành và khả năng hoạt động trong môi trường có kết nối hạn chế. Để đáp ứng những yêu cầu thiết yếu này, NVIDIA và Google đã hợp tác giới thiệu các mô hình đa phương thức và đa ngôn ngữ Gemma 4 mới nhất, được thiết kế để mở rộng quy mô liền mạch từ các trung tâm dữ liệu NVIDIA Blackwell mạnh mẽ nhất xuống các thiết bị biên Jetson nhỏ gọn.
Những mô hình này đại diện cho một bước nhảy vọt đáng kể về hiệu quả và độ chính xác, biến chúng thành công cụ đa năng cho nhiều tác vụ AI phổ biến. Dòng Gemma 4 sẵn sàng định nghĩa lại cách AI được tích hợp vào các ứng dụng hàng ngày, mang đến những khả năng vượt xa giới hạn của việc triển khai AI cục bộ.
Gemma 4: Thúc đẩy AI đa phương thức và đa ngôn ngữ
Thế giới Gemma đã mở rộng với sự ra đời của bốn mô hình Gemma 4 mới, mỗi mô hình được thiết kế với các kịch bản triển khai cụ thể trong tâm trí, đồng thời cung cấp một bộ khả năng mạnh mẽ. Những mô hình này không chỉ về kích thước; chúng còn về thiết kế thông minh, mang lại hiệu suất mạnh mẽ trên nhiều thách thức AI khác nhau.
Các khả năng cốt lõi của mô hình Gemma 4 bao gồm:
- Suy luận: Hiệu suất vượt trội trong các tác vụ giải quyết vấn đề phức tạp, cho phép ra quyết định tinh vi hơn.
- Mã hóa: Các tính năng tạo mã và gỡ lỗi tiên tiến, tối ưu hóa quy trình làm việc của nhà phát triển.
- Tác nhân: Hỗ trợ gốc cho việc sử dụng công cụ có cấu trúc, tạo điều kiện thuận lợi cho việc tạo ra các hệ thống AI tác nhân mạnh mẽ.
- Khả năng Xử lý Thị giác, Âm thanh và Video: Tương tác đa phương thức phong phú cho các trường hợp sử dụng như nhận dạng đối tượng, nhận dạng giọng nói tự động (ASR), trí tuệ tài liệu và video.
- Đầu vào Đa phương thức Xen kẽ: Khả năng tự do kết hợp văn bản và hình ảnh trong một lời nhắc duy nhất, mang lại tương tác tự nhiên và toàn diện hơn.
- Hỗ trợ Đa ngôn ngữ: Hỗ trợ sẵn sàng cho hơn 35 ngôn ngữ, với việc đào tạo trước trên hơn 140 ngôn ngữ, mở rộng khả năng tiếp cận toàn cầu.
Dòng Gemma 4 bao gồm mô hình Mixture-of-Experts (MoE) đầu tiên trong dòng Gemma, được tối ưu hóa cho hiệu quả. Đáng chú ý, cả bốn mô hình đều có thể chạy trên một GPU NVIDIA H100 duy nhất, thể hiện thiết kế tối ưu của chúng. Các biến thể 31B và 26B A4B là các mô hình suy luận hiệu suất cao phù hợp cho cả môi trường cục bộ và trung tâm dữ liệu, trong khi các mô hình E4B và E2B được thiết kế đặc biệt cho các ứng dụng trên thiết bị và di động, kế thừa di sản của Gemma 3n.
| Model Name | Architecture Type | Total Parameters | Active or Effective Parameters | Input Context Length (Tokens) | Sliding Window (Tokens) | Modalities |
|---|---|---|---|---|---|---|
| Gemma-4-31B | Dense Transformer | 31B | — | 256K | 1024 | Text |
| Gemma-4-26B-A4B | MoE – 128 Experts | 26B | 3.8B | 256K | — | Text |
| Gemma-4-E4B | Dense Transformer | 7.9B with embeddings | 4.5B effective | 128K | 512 | Text, Audio, Vision, Video |
| Gemma-4-E2B | Dense Transformer | 5.1B with embeddings | 2.3B effective | 128K | 512 | Text, Audio, Vision, Video |
Bảng 1. Tổng quan về dòng mô hình Gemma 4, tóm tắt các loại kiến trúc, kích thước tham số, tham số hiệu quả, độ dài ngữ cảnh được hỗ trợ và các phương thức có sẵn để giúp các nhà phát triển chọn mô hình phù hợp cho việc triển khai tại trung tâm dữ liệu, biên và trên thiết bị.
Các mô hình này có sẵn trên Hugging Face với các điểm kiểm tra BF16. Đối với các nhà phát triển tận dụng GPU NVIDIA Blackwell, một điểm kiểm tra lượng tử hóa NVFP4 cho Gemma-4-31B có sẵn thông qua NVIDIA Model Optimizer để sử dụng với vLLM. Độ chính xác NVFP4 duy trì độ chính xác gần như giống hệt với độ chính xác 8-bit trong khi cải thiện đáng kể hiệu suất trên mỗi watt và giảm chi phí trên mỗi token, điều này rất quan trọng đối với việc triển khai quy mô lớn.
Đưa AI đến Thiết bị biên: Triển khai trên Thiết bị với Phần cứng NVIDIA
Khi các quy trình làm việc và tác nhân AI ngày càng trở nên không thể thiếu trong các hoạt động hàng ngày, khả năng chạy các mô hình này ngoài môi trường trung tâm dữ liệu truyền thống là tối quan trọng. NVIDIA cung cấp một hệ sinh thái toàn diện gồm các hệ thống máy khách và biên, từ GPU mạnh mẽ như GPU RTX đến các thiết bị Jetson chuyên dụng và DGX Spark, mang lại cho các nhà phát triển sự linh hoạt cần thiết để tối ưu hóa chi phí, độ trễ và bảo mật.
NVIDIA đã hợp tác với các khung suy luận hàng đầu như vLLM, Ollama và llama.cpp để đảm bảo trải nghiệm triển khai cục bộ tối ưu cho các mô hình Gemma 4. Ngoài ra, Unsloth cung cấp hỗ trợ ngay từ đầu với các mô hình được tối ưu hóa và lượng tử hóa, cho phép triển khai cục bộ hiệu quả thông qua Unsloth Studio. Hệ thống hỗ trợ mạnh mẽ này trao quyền cho các nhà phát triển triển khai AI tinh vi trực tiếp tại nơi cần thiết nhất.
| DGX Spark | Jetson | RTX / RTX PRO | |
|---|---|---|---|
| Trường hợp sử dụng | Nghiên cứu và tạo mẫu AI | AI biên và robot | Ứng dụng máy tính để bàn và phát triển Windows |
| Điểm nổi bật chính | Ngăn xếp phần mềm AI NVIDIA được cài đặt sẵn và 128 GB bộ nhớ hợp nhất cung cấp sức mạnh cho việc tạo mẫu cục bộ, tinh chỉnh và các quy trình làm việc OpenClaw hoàn toàn cục bộ | Độ trễ gần bằng 0 nhờ các tính năng kiến trúc như tải tham số có điều kiện và nhúng từng lớp có thể được lưu vào bộ nhớ cache để tăng tốc và giảm sử dụng bộ nhớ ( thêm thông tin) | Hiệu suất tối ưu cho suy luận cục bộ dành cho người có sở thích, nhà sáng tạo và chuyên gia |
| Hướng dẫn bắt đầu | DGX Spark Playbooks cho các hướng dẫn triển khai vLLM, Ollama, Unsloth và llama.cpp NeMo Automodel cho hướng dẫn tinh chỉnh trên Spark | Jetson AI Lab cho các hướng dẫn và container Gemma tùy chỉnh | RTX AI Garage cho các hướng dẫn Ollama và llama.cpp. Chủ sở hữu RTX Pro cũng có thể sử dụng vLLM. |
Bảng 2. So sánh các tùy chọn triển khai cục bộ trên các nền tảng NVIDIA, nêu bật các trường hợp sử dụng chính, khả năng chính và các tài nguyên khởi đầu được đề xuất cho các hệ thống DGX Spark, Jetson và RTX / RTX PRO chạy các mô hình Gemma 4.
Xây dựng quy trình làm việc tác nhân an toàn và Triển khai sẵn sàng cho doanh nghiệp
Đối với các nhà phát triển và những người đam mê AI, NVIDIA DGX Spark, với GB10 Grace Blackwell Superchip và 128 GB bộ nhớ hợp nhất, cung cấp các tài nguyên vô song. Nền tảng mạnh mẽ này lý tưởng để chạy mô hình Gemma 4 31B với trọng số BF16, cho phép tạo mẫu hiệu quả và xây dựng các quy trình làm việc AI tác nhân phức tạp trong khi vẫn đảm bảo thực thi riêng tư và an toàn trên thiết bị. Hệ điều hành DGX Linux và toàn bộ ngăn xếp phần mềm NVIDIA cung cấp một môi trường phát triển liền mạch.
Công cụ suy luận vLLM, được thiết kế để phân phát LLM thông lượng cao, tối đa hóa hiệu quả và giảm thiểu việc sử dụng bộ nhớ trên DGX Spark. Sự kết hợp này cung cấp một nền tảng hiệu suất cao để triển khai các mô hình Gemma 4 lớn nhất. Các nhà phát triển có thể tận dụng sách hướng dẫn vLLM để suy luận trên DGX Spark hoặc bắt đầu với Ollama hoặc llama.cpp. Hơn nữa, NeMo Automodel cho phép tinh chỉnh các mô hình này trực tiếp trên DGX Spark.
Đối với người dùng doanh nghiệp, NVIDIA NIM cung cấp một lộ trình để triển khai sẵn sàng sản xuất. Các nhà phát triển có thể tạo mẫu Gemma 4 31B bằng API NIM do NVIDIA lưu trữ từ danh mục API của NVIDIA. Để sản xuất quy mô đầy đủ, các dịch vụ siêu nhỏ NIM được đóng gói sẵn và tối ưu hóa có sẵn để triển khai tự lưu trữ an toàn, được hỗ trợ bởi Giấy phép Doanh nghiệp NVIDIA. Điều này đảm bảo rằng các doanh nghiệp có thể triển khai các giải pháp AI mạnh mẽ với sự tự tin, đáp ứng các yêu cầu bảo mật và vận hành nghiêm ngặt.
Nâng cao năng lực cho các tác nhân AI vật lý với NVIDIA Jetson
Các khả năng của các tác nhân AI vật lý hiện đại đang phát triển nhanh chóng, phần lớn là nhờ các mô hình Gemma 4 tích hợp âm thanh tinh vi, nhận thức đa phương thức và suy luận sâu sắc. Các mô hình tiên tiến này cho phép các hệ thống robot vượt ra ngoài việc thực thi tác vụ đơn giản, cấp cho chúng khả năng hiểu giọng nói, diễn giải ngữ cảnh trực quan và suy luận thông minh trước khi hành động.
Trên các nền tảng NVIDIA Jetson, các nhà phát triển có thể thực hiện suy luận Gemma 4 tại biên bằng cách sử dụng llama.cpp và vLLM. Ví dụ, Jetson Orin Nano hỗ trợ các biến thể Gemma 4 E2B và E4B, tạo điều kiện thuận lợi cho suy luận đa phương thức trên các hệ thống nhỏ, nhúng và bị hạn chế về năng lượng. Khả năng mở rộng này mở rộng trên toàn bộ nền tảng Jetson, lên đến Jetson Thor mạnh mẽ, cho phép triển khai mô hình nhất quán bất kể dấu chân phần cứng. Điều này rất quan trọng đối với các ứng dụng trong robot, máy thông minh và tự động hóa công nghiệp, nơi hiệu suất độ trễ thấp và trí thông minh trên thiết bị là tối quan trọng. Các nhà phát triển quan tâm đến việc khám phá các khả năng này có thể tìm thấy các hướng dẫn và container Gemma tùy chỉnh trên Jetson AI Lab.
Tùy chỉnh và Khả năng Tiếp cận Thương mại với NVIDIA NeMo
Để đảm bảo các mô hình Gemma 4 có thể được điều chỉnh cho các ứng dụng cụ thể và tập dữ liệu độc quyền, NVIDIA cung cấp khả năng tinh chỉnh mạnh mẽ thông qua khung NVIDIA NeMo. Thư viện NeMo Automodel, nói riêng, kết hợp sự dễ sử dụng của PyTorch gốc với hiệu suất tối ưu, làm cho quá trình tùy chỉnh trở nên dễ tiếp cận và hiệu quả.
Các nhà phát triển có thể tận dụng các kỹ thuật như tinh chỉnh có giám sát (SFT) và LoRA (Low-Rank Adaptation) hiệu quả bộ nhớ để thực hiện tinh chỉnh ngay từ đầu. Quá trình này bắt đầu trực tiếp từ các điểm kiểm tra mô hình Gemma 4 có sẵn trên Hugging Face, loại bỏ nhu cầu về các bước chuyển đổi rườm rà. Sự linh hoạt này cho phép các doanh nghiệp và nhà nghiên cứu truyền đạt kiến thức chuyên biệt vào các mô hình Gemma 4, đảm bảo độ chính xác và mức độ liên quan cao cho các tác vụ chuyên biệt.
Các mô hình Gemma 4 có sẵn trên toàn bộ nền tảng AI của NVIDIA và được cung cấp theo giấy phép Apache 2.0 thân thiện với thương mại. Giấy phép nguồn mở này tạo điều kiện thuận lợi cho việc áp dụng và tích hợp rộng rãi vào các sản phẩm và dịch vụ thương mại, trao quyền cho các nhà phát triển trên toàn thế giới đổi mới với AI tiên tiến. Từ hiệu suất của Blackwell đến sự phổ biến của các nền tảng Jetson, Gemma 4 được thiết lập để đưa AI tiên tiến đến gần hơn với mọi nhà phát triển và mọi thiết bị.
Nguồn gốc
https://developer.nvidia.com/blog/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4/Câu hỏi thường gặp
What is Gemma 4 and what are its key advancements for AI deployment?
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Cập nhật tin tức
Nhận tin tức AI mới nhất qua email.
