title: "Gemma 4: Skalakan AI dari Pusat Data ke Tepi dengan NVIDIA" slug: "bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4" date: "2026-04-05" lang: "ms" source: "https://developer.nvidia.com/blog/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4/" category: "Model AI" keywords:
- Gemma 4
- NVIDIA
- AI Tepi
- AI Pada Peranti
- AI Multimodal
- LLM
- Penerapan AI
- Blackwell
- Jetson
- RTX
- vLLM
- NeMo meta_description: "Terokai Gemma 4, model AI multimodal dan berbilang bahasa NVIDIA yang direka untuk penerapan lancar dari pusat data Blackwell ke peranti tepi Jetson, menguasakan aplikasi yang selamat dan berlatensi rendah." image: "/images/articles/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4.png" image_alt: "Model NVIDIA Gemma 4 membolehkan AI pada peranti tepi dan pusat data" quality_score: 94 content_score: 93 seo_score: 95 companies:
- NVIDIA schema_type: "NewsArticle" reading_time: 5 faq:
- question: "Apakah itu Gemma 4 dan apakah kemajuan utamanya untuk penerapan AI?" answer: "Gemma 4 mewakili generasi terkini model AI multimodal dan berbilang bahasa daripada Google, yang direka untuk penerapan meluas merentasi keseluruhan spektrum perkakasan NVIDIA, daripada pusat data Blackwell yang berkuasa kepada peranti tepi Jetson yang kompak. Kemajuan utamanya termasuk kecekapan dan ketepatan yang dipertingkatkan secara signifikan, menjadikannya sesuai untuk pelbagai tugas seperti penyelesaian masalah kompleks, penjanaan kod, dan penggunaan alat agen. Model ini mempunyai keupayaan multimodal yang kaya, menyokong teks dan imej yang diselang-seli, dan dilatih awal dalam lebih 140 bahasa. Fleksibiliti dan skalabiliti ini menangani permintaan yang semakin meningkat untuk aplikasi AI tempatan, selamat, cekap kos, dan berlatensi rendah, menolak kecerdasan lebih dekat kepada sumber data dan tindakan."
- question: "Bagaimanakah Gemma 4 memudahkan penerapan AI pada peranti dan tepi, dan platform NVIDIA manakah yang menyokongnya?" answer: "Gemma 4 dioptimumkan secara khusus untuk membolehkan penerapan AI pada peranti dan tepi yang teguh, penting untuk aplikasi yang memerlukan latensi rendah, privasi yang dipertingkatkan, dan kos operasi yang dikurangkan. Rangkaian lengkap sistem klien dan tepi NVIDIA—termasuk GPU RTX, DGX Spark, dan peranti Jetson—menyediakan fleksibiliti dan prestasi yang diperlukan. Sebagai contoh, platform Jetson menyokong varian Gemma 4 E2B dan E4B untuk inferens multimodal pada sistem terbenam yang dihadkan kuasa, manakala GPU RTX menawarkan prestasi yang dioptimumkan untuk inferens tempatan pada komputer meja. Kerjasama dengan vLLM, Ollama, llama.cpp, dan Unsloth memastikan pengalaman penerapan tempatan yang cekap merentasi pelbagai platform ini, memperkasakan pembangun untuk mengintegrasikan AI canggih secara langsung ke dalam aplikasi dan peranti mereka."
- question: "Apakah peranan NVIDIA DGX Spark dan NIM dalam membangun dan menerapkan model Gemma 4 untuk perusahaan?" answer: "NVIDIA DGX Spark menyediakan platform yang berkuasa untuk pembangun dan peminat AI untuk membuat prototaip dan membina aliran kerja AI agen yang selamat dengan Gemma 4. Menampilkan Supercip GB10 Grace Blackwell dan memori bersatu 128 GB, DGX Spark membolehkan model Gemma 4 terbesar sekalipun dijalankan dengan cekap menggunakan wajaran BF16, mengekalkan pelaksanaan pada peranti yang peribadi dan selamat. Enjin inferens vLLM pada DGX Spark seterusnya mengoptimumkan penyediaan LLM untuk daya pemprosesan tinggi. Untuk penerapan pengeluaran, NVIDIA NIM menawarkan mikrosistem yang telah dibungkus dan dioptimumkan, menyediakan penyelesaian yang selamat dan dihoskan sendiri untuk perusahaan dengan Lesen Perusahaan NVIDIA. API NIM yang dihoskan juga tersedia dalam katalog API NVIDIA untuk prototaip awal."
- question: "Bagaimanakah pembangun boleh melaraskan halus model Gemma 4 untuk data domain tertentu, dan alat apakah yang tersedia?" answer: "Pembangun boleh menyesuaikan model Gemma 4 dengan data domain unik mereka menggunakan rangka kerja NVIDIA NeMo, terutamanya pustaka NeMo Automodel. Alat yang berkuasa ini menggabungkan kemudahan penggunaan PyTorch asli dengan prestasi yang dioptimumkan, membolehkan penalaan halus yang cekap. Teknik seperti penalaan halus terselia (SFT) dan LoRA (Low-Rank Adaptation) yang cekap memori boleh digunakan secara langsung pada titik semak model Gemma 4 yang tersedia di Hugging Face, menghapuskan keperluan untuk penukaran yang menyusahkan. Ini membolehkan penalaan halus hari sifar, memastikan model sangat relevan dan tepat untuk aplikasi dan set data khusus, meningkatkan utilitinya merentasi pelbagai vertikal industri."
- question: "Apakah syarat pelesenan komersial untuk model Gemma 4, dan sejauh mana ia boleh diakses oleh pembangun?" answer: "Model Gemma 4 sangat mudah diakses oleh pembangun dan perusahaan melalui lesen Apache 2.0 yang mesra komersial. Lesen sumber terbuka ini membenarkan penggunaan, pengubahsuaian, dan pengedaran model secara meluas, memudahkan integrasinya ke dalam pelbagai produk dan perkhidmatan komersial tanpa yuran pelesenan yang ketat. Tambahan pula, NVIDIA memastikan ketersediaan yang luas di seluruh platform AI mereka, daripada pusat data Blackwell hingga peranti tepi Jetson. Pembangun boleh bermula serta-merta dengan mengakses titik semak model di Hugging Face, menggunakan dokumentasi dan tutorial NVIDIA yang meluas, dan memanfaatkan alat seperti vLLM, Ollama, dan NeMo untuk penerapan dan penyesuaian, menjadikan AI canggih tersedia dengan mudah untuk inovasi."
Landskap kecerdasan buatan berkembang pesat, dengan permintaan yang semakin meningkat untuk menerapkan model AI canggih bukan sahaja di pusat data awan, tetapi juga di hujung rangkaian dan terus pada peranti pengguna. Peralihan ini didorong oleh keperluan untuk latensi yang lebih rendah, privasi yang dipertingkatkan, kos operasi yang dikurangkan, dan keupayaan untuk beroperasi dalam persekitaran dengan sambungan terhad. Menangani keperluan kritikal ini, NVIDIA dan Google telah bekerjasama untuk memperkenalkan model multimodal dan berbilang bahasa **Gemma 4** terkini, yang direka bentuk untuk berskala dengan lancar daripada pusat data NVIDIA Blackwell yang paling berkuasa hingga ke peranti tepi Jetson yang kompak.
Model-model ini mewakili lompatan signifikan dalam kecekapan dan ketepatan, menjadikannya alat yang serba boleh untuk pelbagai tugas AI biasa. Keluarga Gemma 4 bersedia untuk mentakrifkan semula cara AI diintegrasikan ke dalam aplikasi harian, menawarkan keupayaan yang melangkaui sempadan apa yang mungkin dalam penerapan AI tempatan.
## Gemma 4: Memajukan AI Multimodal dan Berbilang Bahasa
Gemmaverse telah berkembang dengan pengenalan empat model Gemma 4 baharu, setiap satunya direka bentuk dengan senario penerapan khusus dalam fikiran sambil menawarkan set keupayaan yang teguh. Model-model ini bukan hanya tentang saiz; ia adalah mengenai reka bentuk pintar, memberikan prestasi yang kukuh merentasi pelbagai cabaran AI.
Keupayaan teras model Gemma 4 termasuk:
* **Penaakulan:** Prestasi luar biasa dalam tugas penyelesaian masalah kompleks, membolehkan pembuatan keputusan yang lebih canggih.
* **Pengekodan:** Ciri-ciri penjanaan kod dan penyahpepijatan lanjutan, memperkemas aliran kerja pembangun.
* **Ejen:** Sokongan asli untuk penggunaan alat berstruktur, memudahkan penciptaan sistem AI agen yang berkuasa.
* **Keupayaan Penglihatan, Audio, dan Video:** Interaksi multimodal yang kaya untuk kes penggunaan seperti pengecaman objek, pengecaman pertuturan automatik (ASR), risikan dokumen, dan video.
* **Input Multimodal Berselang-seli:** Keupayaan untuk mencampur teks dan imej secara bebas dalam satu arahan, menawarkan interaksi yang lebih semula jadi dan komprehensif.
* **Sokongan Berbilang Bahasa:** Sokongan segera untuk lebih 35 bahasa, dengan latihan awal merentasi lebih daripada 140 bahasa, meluaskan kebolehcapaian global.
Keluarga Gemma 4 termasuk model Mixture-of-Experts (MoE) pertama dalam siri Gemma, yang dioptimumkan untuk kecekapan. Yang luar biasa, keempat-empat model boleh dimuatkan pada satu GPU NVIDIA H100, menunjukkan reka bentuk mereka yang dioptimumkan. Varian 31B dan 26B A4B ialah model penaakulan berprestasi tinggi yang sesuai untuk persekitaran tempatan dan pusat data, manakala model E4B dan E2B direka khusus untuk aplikasi pada peranti dan mudah alih, berdasarkan warisan Gemma 3n.
| Nama Model | Jenis Seni Bina | Jumlah Parameter | Parameter Aktif atau Berkesan | Panjang Konteks Input (Token) | Tetingkap Gelangsar (Token) | Modaliti |
| :--------------- | :----------------- | :--------------- | :----------------------------- | :---------------------------- | :---------------------- | :---------------------- |
| **Gemma-4-31B** | Pengubah Transformer Padat | 31B | — | 256K | 1024 | Teks |
| **Gemma-4-26B-A4B** | MoE – 128 Pakar | 26B | 3.8B | 256K | — | Teks |
| **Gemma-4-E4B** | Pengubah Transformer Padat | 7.9B dengan benaman | 4.5B berkesan | 128K | 512 | Teks, Audio, Penglihatan, Video |
| **Gemma-4-E2B** | Pengubah Transformer Padat | 5.1B dengan benaman | 2.3B berkesan | 128K | 512 | Teks, Audio, Penglihatan, Video |
*Jadual 1. Gambaran keseluruhan keluarga model Gemma 4, meringkaskan jenis seni bina, saiz parameter, parameter berkesan, panjang konteks yang disokong, dan modaliti yang tersedia untuk membantu pembangun memilih model yang tepat untuk penerapan pusat data, tepi, dan pada peranti.*
Model-model ini tersedia di Hugging Face dengan titik semak BF16. Untuk pembangun yang memanfaatkan GPU NVIDIA Blackwell, titik semak kuantifikasi NVFP4 untuk Gemma-4-31B tersedia melalui [NVIDIA Model Optimizer](https://github.com/NVIDIA/Model-Optimizer) untuk digunakan dengan vLLM. Ketepatan NVFP4 mengekalkan ketepatan yang hampir sama dengan ketepatan 8-bit sambil meningkatkan prestasi per watt dengan ketara dan mengurangkan kos per token, kritikal untuk penerapan berskala besar.
## Membawa AI ke Tepi: Penerapan Pada Peranti dengan Perkakasan NVIDIA
Memandangkan aliran kerja dan agen AI menjadi semakin penting untuk operasi harian, keupayaan untuk menjalankan model-model ini melangkaui persekitaran pusat data tradisional adalah sangat penting. NVIDIA menawarkan ekosistem komprehensif sistem klien dan tepi, daripada [GPU](/ms/gpus) berkuasa seperti GPU RTX kepada peranti Jetson khusus dan DGX Spark, memberikan pembangun fleksibiliti yang diperlukan untuk mengoptimumkan kos, latensi, dan keselamatan.
NVIDIA telah bekerjasama dengan rangka kerja inferens terkemuka seperti vLLM, Ollama, dan llama.cpp untuk memastikan pengalaman penerapan tempatan yang optimum untuk model Gemma 4. Selain itu, Unsloth menyediakan sokongan hari pertama dengan model yang dioptimumkan dan dikuantifikasi, membolehkan penerapan tempatan yang cekap melalui [Unsloth Studio](https://unsloth.ai/docs/models/gemma-4). Sistem sokongan yang teguh ini memperkasakan pembangun untuk menerapkan AI canggih secara langsung di tempat yang paling diperlukan.
| | **DGX Spark** | **Jetson** | **RTX / RTX PRO** |
| :---------------------------- | :----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **Kes Penggunaan** | Penyelidikan dan prototaip AI | AI Tepi dan robotik | Aplikasi desktop dan pembangunan Windows |
| **Sorotan Utama** | Stak perisian AI NVIDIA yang telah dipasang dan memori bersatu 128 GB menguasakan prototaip tempatan, penalaan halus, dan aliran kerja OpenClaw yang sepenuhnya tempatan | Latensi hampir sifar disebabkan oleh ciri seni bina seperti pemuatan parameter bersyarat dan benaman setiap lapisan yang boleh di-cache untuk penggunaan memori yang lebih cepat dan dikurangkan ([maklumat lanjut](https://ai.google.dev/gemma/docs/gemma-3n)) | Prestasi yang dioptimumkan untuk inferens tempatan bagi penggemar, pencipta, dan profesional |
| **Panduan Bermula** | [Playbook DGX Spark](https://build.nvidia.com/spark) untuk panduan penerapan vLLM, Ollama, Unsloth, dan llama.cpp<br/>[NeMo Automodel](https://github.com/NVIDIA-NeMo/Automodel/tree/main/docs/guides/vlm/gemma4.md) untuk panduan penalaan halus pada Spark | [Jetson AI Lab](https://www.jetson-ai-lab.com/models/) untuk tutorial dan kontena Gemma tersuai | [RTX AI Garage](https://blogs.nvidia.com/blog/rtx-ai-garage-open-models-google-gemma-4) untuk panduan Ollama dan llama.cpp. Pemilik RTX Pro juga boleh menggunakan vLLM. |
*Jadual 2. Perbandingan pilihan penerapan tempatan merentasi platform NVIDIA, menyerlahkan kes penggunaan utama, keupayaan utama, dan sumber permulaan yang disyorkan untuk sistem DGX Spark, Jetson, dan RTX / RTX PRO yang menjalankan model Gemma 4.*
## Membina Aliran Kerja Agen yang Selamat dan Penerapan Sedia Perusahaan
Untuk pembangun dan peminat AI, NVIDIA DGX Spark, menampilkan Supercip GB10 Grace Blackwell dan memori bersatu 128 GB, menawarkan sumber yang tiada tandingan. Platform teguh ini sesuai untuk menjalankan model Gemma 4 31B dengan wajaran BF16, membolehkan prototaip yang cekap dan pembinaan [aliran kerja AI agen](/ms/operationalizing-agentic-ai-part-1-a-stakeholders-guide) yang kompleks sambil memastikan pelaksanaan pada peranti yang peribadi dan selamat. OS DGX Linux dan stak perisian NVIDIA yang lengkap menyediakan persekitaran pembangunan yang lancar.
Enjin inferens vLLM, yang direka untuk penyediaan LLM daya pemprosesan tinggi, memaksimumkan kecekapan dan meminimumkan penggunaan memori pada DGX Spark. Gabungan ini menyediakan platform berprestasi tinggi untuk menerapkan model Gemma 4 terbesar. Pembangun boleh memanfaatkan [playbook vLLM untuk Inferens DGX Spark](https://build.nvidia.com/spark/vllm) atau bermula dengan Ollama atau llama.cpp. Tambahan pula, NeMo Automodel membenarkan penalaan halus model-model ini secara langsung pada DGX Spark.
Untuk pengguna perusahaan, NVIDIA NIM menawarkan laluan kepada penerapan sedia pengeluaran. Pembangun boleh membuat prototaip Gemma 4 31B menggunakan API NIM yang dihoskan NVIDIA daripada [katalog API NVIDIA](https://catalog.ngc.nvidia.com/orgs/nim/teams/google/containers/gemma-4-31b-it). Untuk pengeluaran berskala penuh, mikrosistem NIM yang telah dibungkus dan dioptimumkan tersedia untuk penerapan yang selamat dan dihoskan sendiri, disokong oleh Lesen Perusahaan NVIDIA. Ini memastikan bahawa perusahaan boleh menerapkan penyelesaian AI yang berkuasa dengan yakin, memenuhi keperluan keselamatan dan operasi yang ketat.
## Memperkasa Agen AI Fizikal dengan NVIDIA Jetson
Keupayaan agen AI fizikal moden berkembang pesat, sebahagian besarnya disebabkan oleh model Gemma 4 yang mengintegrasikan audio canggih, persepsi multimodal, dan penaakulan mendalam. Model-model canggih ini membolehkan sistem robotik bergerak melangkaui pelaksanaan tugas yang mudah, memberi mereka keupayaan untuk memahami pertuturan, menafsirkan konteks visual, dan menaakul secara bijak sebelum bertindak.
Pada platform NVIDIA Jetson, pembangun boleh melakukan inferens Gemma 4 di tepi menggunakan llama.cpp dan vLLM. Jetson Orin Nano, sebagai contoh, menyokong varian Gemma 4 E2B dan E4B, memudahkan inferens multimodal pada sistem kecil, terbenam, dan dihadkan kuasa. Keupayaan penskalaan ini meluas merentasi seluruh platform Jetson, sehingga Jetson Thor yang hebat, membolehkan penerapan model yang konsisten tanpa mengira jejak perkakasan. Ini penting untuk aplikasi dalam robotik, mesin pintar, dan automasi industri di mana prestasi latensi rendah dan kecerdasan pada peranti adalah sangat penting. Pembangun yang berminat untuk meneroka keupayaan ini boleh mencari tutorial dan kontena Gemma tersuai di [Jetson AI Lab](https://www.jetson-ai-lab.com/models/).
## Penyesuaian dan Kebolehcapaian Komersial dengan NVIDIA NeMo
Untuk memastikan model Gemma 4 boleh disesuaikan dengan aplikasi khusus dan set data proprietari, NVIDIA menawarkan keupayaan penalaan halus yang teguh melalui [rangka kerja NVIDIA NeMo](https://github.com/NVIDIA-NeMo/). Pustaka [NeMo Automodel](https://github.com/NVIDIA-NeMo/Automodel/tree/main/docs/guides/vlm/gemma4.md), khususnya, menggabungkan kemudahan penggunaan PyTorch asli dengan prestasi yang dioptimumkan, menjadikan proses penyesuaian mudah diakses dan cekap.
Pembangun boleh memanfaatkan teknik seperti penalaan halus terselia (SFT) dan LoRA (Low-Rank Adaptation) yang cekap memori untuk melakukan penalaan halus hari sifar. Proses ini bermula secara langsung dari titik semak model Gemma 4 yang tersedia di [Hugging Face](https://huggingface.co/collections/google/gemma-4), menghapuskan keperluan untuk langkah penukaran yang menyusahkan. Fleksibiliti ini membolehkan perusahaan dan penyelidik untuk menyemai model Gemma 4 dengan pengetahuan khusus domain, memastikan ketepatan dan kerelevanan yang tinggi untuk tugas khusus.
Model Gemma 4 sedia tersedia di seluruh platform AI NVIDIA dan ditawarkan di bawah lesen Apache 2.0 yang mesra komersial. Lesen sumber terbuka ini memudahkan penggunaan dan integrasi yang meluas ke dalam produk dan perkhidmatan komersial, memperkasakan pembangun di seluruh dunia untuk berinovasi dengan AI canggih. Daripada prestasi Blackwell hingga ke ubiquiti platform Jetson, Gemma 4 ditetapkan untuk membawa AI canggih lebih dekat kepada setiap pembangun dan setiap peranti.
Sumber asal
https://developer.nvidia.com/blog/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4/Soalan Lazim
What is Gemma 4 and what are its key advancements for AI deployment?
Gemma 4 represents the latest generation of multimodal and multilingual AI models from Google, designed for broad deployment across the entire NVIDIA hardware spectrum, from powerful Blackwell data centers to compact Jetson edge devices. Its key advancements include significantly improved efficiency and accuracy, making it suitable for diverse tasks like complex problem-solving, code generation, and agent tool use. These models boast rich multimodal capabilities, supporting interleaved text and images, and are pre-trained on over 140 languages. This versatility and scalability address the growing demand for local, secure, cost-efficient, and low-latency AI applications, pushing intelligence closer to the source of data and action.
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
Gemma 4 is specifically optimized to enable robust on-device and edge AI deployments, crucial for applications requiring low latency, enhanced privacy, and reduced operational costs. NVIDIA's comprehensive suite of client and edge systems—including RTX GPUs, DGX Spark, and Jetson devices—provides the necessary flexibility and performance. For instance, Jetson platforms support Gemma 4 E2B and E4B variants for multimodal inference on power-constrained embedded systems, while RTX GPUs offer optimized performance for local inference on desktops. Collaborations with vLLM, Ollama, llama.cpp, and Unsloth ensure efficient local deployment experiences across these diverse platforms, empowering developers to integrate advanced AI directly into their applications and devices.
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
NVIDIA DGX Spark provides a powerful platform for AI developers and enthusiasts to prototype and build secure, agentic AI workflows with Gemma 4. Featuring GB10 Grace Blackwell Superchips and 128 GB of unified memory, DGX Spark enables efficient running of even the largest Gemma 4 models with BF16 weights, maintaining private and secure on-device execution. The vLLM inference engine on DGX Spark further optimizes LLM serving for high throughput. For production deployment, NVIDIA NIM offers prepackaged and optimized microservices, providing a secure, self-hosted solution for enterprises with an NVIDIA Enterprise License. A hosted NIM API is also available in the NVIDIA API catalog for initial prototyping.
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
Developers can customize Gemma 4 models with their unique domain data using the NVIDIA NeMo framework, particularly the NeMo Automodel library. This powerful tool combines the ease of use of native PyTorch with optimized performance, allowing for efficient fine-tuning. Techniques such as supervised fine-tuning (SFT) and memory-efficient LoRA (Low-Rank Adaptation) can be applied directly to Gemma 4 model checkpoints available on Hugging Face, eliminating the need for cumbersome conversions. This enables day-zero fine-tuning, ensuring models are highly relevant and accurate for specialized applications and datasets, enhancing their utility across various industry verticals.
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Gemma 4 models are made highly accessible to developers and enterprises through the commercial-friendly Apache 2.0 license. This open-source license allows for broad use, modification, and distribution of the models, facilitating their integration into various commercial products and services without restrictive licensing fees. Furthermore, NVIDIA ensures wide availability across its entire AI platform, from Blackwell data centers to Jetson edge devices. Developers can get started immediately by accessing model checkpoints on Hugging Face, utilizing NVIDIA's extensive documentation and tutorials, and leveraging tools like vLLM, Ollama, and NeMo for deployment and customization, making advanced AI readily available for innovation.
Kekal Dikemas Kini
Dapatkan berita AI terkini dalam peti masuk anda.
