Lanskap kecerdasan buatan berkembang pesat, dengan meningkatnya permintaan untuk menyebarkan model AI canggih tidak hanya di pusat data cloud, tetapi juga di edge jaringan dan langsung pada perangkat pengguna. Pergeseran ini didorong oleh kebutuhan akan latensi yang lebih rendah, privasi yang ditingkatkan, biaya operasional yang berkurang, dan kemampuan untuk beroperasi di lingkungan dengan konektivitas terbatas. Menjawab persyaratan penting ini, NVIDIA dan Google telah berkolaborasi untuk memperkenalkan model multimodal dan multibahasa Gemma 4 terbaru, yang dirancang untuk diskalakan dengan mulus dari pusat data NVIDIA Blackwell yang paling kuat hingga perangkat edge Jetson yang ringkas.
Model-model ini mewakili lompatan signifikan dalam efisiensi dan akurasi, menjadikannya alat serbaguna untuk berbagai tugas AI umum. Keluarga Gemma 4 siap mendefinisikan ulang bagaimana AI diintegrasikan ke dalam aplikasi sehari-hari, menawarkan kemampuan yang mendorong batas-batas kemungkinan dalam penyebaran AI lokal.
Gemma 4: Memajukan AI Multimodal dan Multibahasa
Gemmaverse telah diperluas dengan diperkenalkannya empat model Gemma 4 baru, masing-masing dirancang dengan skenario penyebaran tertentu sambil menawarkan serangkaian kemampuan yang kuat. Model-model ini bukan hanya tentang ukuran; ini tentang desain cerdas, memberikan kinerja yang kuat di berbagai tantangan AI.
Kemampuan inti model Gemma 4 meliputi:
- Penalaran: Kinerja luar biasa pada tugas pemecahan masalah yang kompleks, memungkinkan pengambilan keputusan yang lebih canggih.
- Pengodean: Fitur pembuatan dan debugging kode tingkat lanjut, menyederhanakan alur kerja pengembang.
- Agen: Dukungan asli untuk penggunaan alat terstruktur, memfasilitasi pembuatan sistem AI agentic yang kuat.
- Kemampuan Visi, Audio, dan Video: Interaksi multimodal yang kaya untuk kasus penggunaan seperti pengenalan objek, pengenalan ucapan otomatis (ASR), kecerdasan dokumen, dan video.
- Input Multimodal Tersisip: Kemampuan untuk secara bebas mencampur teks dan gambar dalam satu prompt, menawarkan interaksi yang lebih alami dan komprehensif.
- Dukungan Multibahasa: Dukungan langsung untuk lebih dari 35 bahasa, dengan pelatihan awal di lebih dari 140 bahasa, memperluas aksesibilitas global.
Keluarga Gemma 4 mencakup model Mixture-of-Experts (MoE) pertama dalam seri Gemma, yang dioptimalkan untuk efisiensi. Hebatnya, keempat model dapat dimuat dalam satu GPU NVIDIA H100, menunjukkan desainnya yang dioptimalkan. Varian 31B dan 26B A4B adalah model penalaran berkinerja tinggi yang cocok untuk lingkungan lokal dan pusat data, sementara model E4B dan E2B secara khusus disesuaikan untuk aplikasi pada perangkat dan seluler, membangun warisan Gemma 3n.
| Model Name | Architecture Type | Total Parameters | Active or Effective Parameters | Input Context Length (Tokens) | Sliding Window (Tokens) | Modalities |
|---|---|---|---|---|---|---|
| Gemma-4-31B | Dense Transformer | 31B | — | 256K | 1024 | Text |
| Gemma-4-26B-A4B | MoE – 128 Experts | 26B | 3.8B | 256K | — | Text |
| Gemma-4-E4B | Dense Transformer | 7.9B with embeddings | 4.5B effective | 128K | 512 | Text, Audio, Vision, Video |
| Gemma-4-E2B | Dense Transformer | 5.1B with embeddings | 2.3B effective | 128K | 512 | Text, Audio, Vision, Video |
Tabel 1. Ikhtisar keluarga model Gemma 4, merangkum jenis arsitektur, ukuran parameter, parameter efektif, panjang konteks yang didukung, dan modalitas yang tersedia untuk membantu pengembang memilih model yang tepat untuk penyebaran di pusat data, edge, dan pada perangkat.
Model-model ini tersedia di Hugging Face dengan checkpoint BF16. Bagi pengembang yang memanfaatkan GPU NVIDIA Blackwell, checkpoint terkuantisasi NVFP4 untuk Gemma-4-31B tersedia melalui NVIDIA Model Optimizer untuk digunakan dengan vLLM. Presisi NVFP4 mempertahankan akurasi yang hampir identik dengan presisi 8-bit sambil secara signifikan meningkatkan kinerja per watt dan menurunkan biaya per token, yang sangat penting untuk penyebaran skala besar.
Membawa AI ke Edge: Penyebaran pada Perangkat dengan Perangkat Keras NVIDIA
Karena alur kerja dan agen AI menjadi semakin integral dengan operasi sehari-hari, kemampuan untuk menjalankan model-model ini di luar lingkungan pusat data tradisional menjadi sangat penting. NVIDIA menawarkan ekosistem komprehensif sistem klien dan edge, mulai dari gpu yang kuat seperti GPU RTX hingga perangkat Jetson khusus dan DGX Spark, memberikan pengembang fleksibilitas yang dibutuhkan untuk mengoptimalkan biaya, latensi, dan keamanan.
NVIDIA telah berkolaborasi dengan kerangka kerja inferensi terkemuka seperti vLLM, Ollama, dan llama.cpp untuk memastikan pengalaman penyebaran lokal yang optimal untuk model Gemma 4. Selain itu, Unsloth menyediakan dukungan sejak hari pertama dengan model yang dioptimalkan dan terkuantisasi, memungkinkan penyebaran lokal yang efisien melalui Unsloth Studio. Sistem dukungan yang kuat ini memberdayakan pengembang untuk menyebarkan AI canggih langsung di tempat yang paling dibutuhkan.
| DGX Spark | Jetson | RTX / RTX PRO | |
|---|---|---|---|
| Kasus Penggunaan | Penelitian dan prototipe AI | AI Edge dan robotika | Aplikasi desktop dan pengembangan Windows |
| Sorotan Utama | Tumpukan perangkat lunak AI NVIDIA yang sudah terinstal dan memori terpadu 128 GB mendukung prototyping lokal, fine-tuning, dan alur kerja OpenClaw yang sepenuhnya lokal | Latensi mendekati nol karena fitur arsitektur seperti pemuatan parameter bersyarat dan embeddings per lapisan yang dapat di-cache untuk penggunaan memori yang lebih cepat dan lebih sedikit (info lebih lanjut) | Kinerja yang dioptimalkan untuk inferensi lokal bagi penghobi, kreator, dan profesional |
| Panduan Memulai | DGX Spark Playbooks untuk panduan penyebaran vLLM, Ollama, Unsloth, dan llama.cpp NeMo Automodel untuk panduan fine-tuning pada Spark | Jetson AI Lab untuk tutorial dan container Gemma khusus | RTX AI Garage untuk panduan Ollama dan llama.cpp. Pemilik RTX Pro juga dapat menggunakan vLLM. |
Tabel 2. Perbandingan opsi penyebaran lokal di seluruh platform NVIDIA, menyoroti kasus penggunaan utama, kemampuan utama, dan sumber daya awal yang direkomendasikan untuk sistem DGX Spark, Jetson, dan RTX / RTX PRO yang menjalankan model Gemma 4.
Membangun Alur Kerja Agentic yang Aman dan Penyebaran Siap-Perusahaan
Bagi pengembang dan penggemar AI, NVIDIA DGX Spark, yang menampilkan Superchip GB10 Grace Blackwell dan memori terpadu 128 GB, menawarkan sumber daya yang tak tertandingi. Platform yang kuat ini sangat ideal untuk menjalankan model Gemma 4 31B dengan bobot BF16, memungkinkan prototyping yang efisien dan pembangunan alur kerja AI agentic yang kompleks sambil memastikan eksekusi pada perangkat yang privat dan aman. Sistem operasi DGX Linux dan tumpukan perangkat lunak NVIDIA yang lengkap menyediakan lingkungan pengembangan yang mulus.
Mesin inferensi vLLM, yang dirancang untuk penyajian LLM throughput tinggi, memaksimalkan efisiensi dan meminimalkan penggunaan memori pada DGX Spark. Kombinasi ini menyediakan platform berkinerja tinggi untuk menyebarkan model Gemma 4 terbesar. Pengembang dapat memanfaatkan panduan vLLM untuk Inferensi DGX Spark atau memulai dengan Ollama atau llama.cpp. Selanjutnya, NeMo Automodel memungkinkan fine-tuning model-model ini langsung di DGX Spark.
Untuk pengguna perusahaan, NVIDIA NIM menawarkan jalur menuju penyebaran yang siap produksi. Pengembang dapat membuat prototipe Gemma 4 31B menggunakan API NIM yang di-hosting NVIDIA dari katalog API NVIDIA. Untuk produksi skala penuh, microservices NIM yang telah dikemas sebelumnya dan dioptimalkan tersedia untuk penyebaran self-hosted yang aman, didukung oleh Lisensi Perusahaan NVIDIA. Ini memastikan bahwa perusahaan dapat menyebarkan solusi AI yang kuat dengan percaya diri, memenuhi persyaratan keamanan dan operasional yang ketat.
Memberdayakan Agen AI Fisik dengan NVIDIA Jetson
Kemampuan agen AI fisik modern berkembang pesat, sebagian besar karena model Gemma 4 mengintegrasikan audio canggih, persepsi multimodal, dan penalaran mendalam. Model-model canggih ini memungkinkan sistem robotika untuk bergerak melampaui eksekusi tugas yang sederhana, memberi mereka kemampuan untuk memahami ucapan, menafsirkan konteks visual, dan bernalar secara cerdas sebelum bertindak.
Pada platform NVIDIA Jetson, pengembang dapat melakukan inferensi Gemma 4 di edge menggunakan llama.cpp dan vLLM. Jetson Orin Nano, misalnya, mendukung varian Gemma 4 E2B dan E4B, memfasilitasi inferensi multimodal pada sistem kecil, tertanam, dan berdaya terbatas. Kemampuan penskalaan ini meluas di seluruh platform Jetson, hingga Jetson Thor yang tangguh, memungkinkan penyebaran model yang konsisten terlepas dari jejak perangkat keras. Ini sangat penting untuk aplikasi dalam robotika, mesin pintar, dan otomatisasi industri di mana kinerja latensi rendah dan kecerdasan pada perangkat adalah yang utama. Pengembang yang tertarik untuk menjelajahi kemampuan ini dapat menemukan tutorial dan container Gemma khusus di Jetson AI Lab.
Kustomisasi dan Aksesibilitas Komersial dengan NVIDIA NeMo
Untuk memastikan bahwa model Gemma 4 dapat disesuaikan dengan aplikasi spesifik dan dataset kepemilikan, NVIDIA menawarkan kemampuan fine-tuning yang kuat melalui kerangka kerja NVIDIA NeMo. Pustaka NeMo Automodel, khususnya, menggabungkan kemudahan penggunaan PyTorch asli dengan kinerja yang dioptimalkan, membuat proses kustomisasi dapat diakses dan efisien.
Pengembang dapat memanfaatkan teknik seperti supervised fine-tuning (SFT) dan LoRA (Low-Rank Adaptation) yang efisien memori untuk melakukan fine-tuning sejak hari pertama. Proses ini dimulai langsung dari checkpoint model Gemma 4 yang tersedia di Hugging Face, menghilangkan kebutuhan akan langkah-langkah konversi yang rumit. Fleksibilitas ini memungkinkan perusahaan dan peneliti untuk menanamkan model Gemma 4 dengan pengetahuan khusus domain, memastikan akurasi dan relevansi tinggi untuk tugas-tugas khusus.
Model Gemma 4 tersedia di seluruh platform AI NVIDIA dan ditawarkan di bawah lisensi Apache 2.0 yang ramah komersial. Lisensi sumber terbuka ini memfasilitasi adopsi dan integrasi yang luas ke dalam produk dan layanan komersial, memberdayakan pengembang di seluruh dunia untuk berinovasi dengan AI mutakhir. Dari kinerja Blackwell hingga keberadaan platform Jetson yang meluas, Gemma 4 siap membawa AI canggih lebih dekat ke setiap pengembang dan setiap perangkat.
Sumber asli
https://developer.nvidia.com/blog/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4/Pertanyaan yang Sering Diajukan
What is Gemma 4 and what are its key advancements for AI deployment?
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Tetap Update
Dapatkan berita AI terbaru di inbox Anda.
