Code Velocity
Model AI

Gemma 4: Menskalakan AI dari Pusat Data ke Edge dengan NVIDIA

·5 mnt baca·NVIDIA·Sumber asli
Bagikan
Model NVIDIA Gemma 4 memungkinkan AI pada perangkat edge dan pusat data

Lanskap kecerdasan buatan berkembang pesat, dengan meningkatnya permintaan untuk menyebarkan model AI canggih tidak hanya di pusat data cloud, tetapi juga di edge jaringan dan langsung pada perangkat pengguna. Pergeseran ini didorong oleh kebutuhan akan latensi yang lebih rendah, privasi yang ditingkatkan, biaya operasional yang berkurang, dan kemampuan untuk beroperasi di lingkungan dengan konektivitas terbatas. Menjawab persyaratan penting ini, NVIDIA dan Google telah berkolaborasi untuk memperkenalkan model multimodal dan multibahasa Gemma 4 terbaru, yang dirancang untuk diskalakan dengan mulus dari pusat data NVIDIA Blackwell yang paling kuat hingga perangkat edge Jetson yang ringkas.

Model-model ini mewakili lompatan signifikan dalam efisiensi dan akurasi, menjadikannya alat serbaguna untuk berbagai tugas AI umum. Keluarga Gemma 4 siap mendefinisikan ulang bagaimana AI diintegrasikan ke dalam aplikasi sehari-hari, menawarkan kemampuan yang mendorong batas-batas kemungkinan dalam penyebaran AI lokal.

Gemma 4: Memajukan AI Multimodal dan Multibahasa

Gemmaverse telah diperluas dengan diperkenalkannya empat model Gemma 4 baru, masing-masing dirancang dengan skenario penyebaran tertentu sambil menawarkan serangkaian kemampuan yang kuat. Model-model ini bukan hanya tentang ukuran; ini tentang desain cerdas, memberikan kinerja yang kuat di berbagai tantangan AI.

Kemampuan inti model Gemma 4 meliputi:

  • Penalaran: Kinerja luar biasa pada tugas pemecahan masalah yang kompleks, memungkinkan pengambilan keputusan yang lebih canggih.
  • Pengodean: Fitur pembuatan dan debugging kode tingkat lanjut, menyederhanakan alur kerja pengembang.
  • Agen: Dukungan asli untuk penggunaan alat terstruktur, memfasilitasi pembuatan sistem AI agentic yang kuat.
  • Kemampuan Visi, Audio, dan Video: Interaksi multimodal yang kaya untuk kasus penggunaan seperti pengenalan objek, pengenalan ucapan otomatis (ASR), kecerdasan dokumen, dan video.
  • Input Multimodal Tersisip: Kemampuan untuk secara bebas mencampur teks dan gambar dalam satu prompt, menawarkan interaksi yang lebih alami dan komprehensif.
  • Dukungan Multibahasa: Dukungan langsung untuk lebih dari 35 bahasa, dengan pelatihan awal di lebih dari 140 bahasa, memperluas aksesibilitas global.

Keluarga Gemma 4 mencakup model Mixture-of-Experts (MoE) pertama dalam seri Gemma, yang dioptimalkan untuk efisiensi. Hebatnya, keempat model dapat dimuat dalam satu GPU NVIDIA H100, menunjukkan desainnya yang dioptimalkan. Varian 31B dan 26B A4B adalah model penalaran berkinerja tinggi yang cocok untuk lingkungan lokal dan pusat data, sementara model E4B dan E2B secara khusus disesuaikan untuk aplikasi pada perangkat dan seluler, membangun warisan Gemma 3n.

Model NameArchitecture TypeTotal ParametersActive or Effective ParametersInput Context Length (Tokens)Sliding Window (Tokens)Modalities
Gemma-4-31BDense Transformer31B256K1024Text
Gemma-4-26B-A4BMoE – 128 Experts26B3.8B256KText
Gemma-4-E4BDense Transformer7.9B with embeddings4.5B effective128K512Text, Audio, Vision, Video
Gemma-4-E2BDense Transformer5.1B with embeddings2.3B effective128K512Text, Audio, Vision, Video

Tabel 1. Ikhtisar keluarga model Gemma 4, merangkum jenis arsitektur, ukuran parameter, parameter efektif, panjang konteks yang didukung, dan modalitas yang tersedia untuk membantu pengembang memilih model yang tepat untuk penyebaran di pusat data, edge, dan pada perangkat.

Model-model ini tersedia di Hugging Face dengan checkpoint BF16. Bagi pengembang yang memanfaatkan GPU NVIDIA Blackwell, checkpoint terkuantisasi NVFP4 untuk Gemma-4-31B tersedia melalui NVIDIA Model Optimizer untuk digunakan dengan vLLM. Presisi NVFP4 mempertahankan akurasi yang hampir identik dengan presisi 8-bit sambil secara signifikan meningkatkan kinerja per watt dan menurunkan biaya per token, yang sangat penting untuk penyebaran skala besar.

Membawa AI ke Edge: Penyebaran pada Perangkat dengan Perangkat Keras NVIDIA

Karena alur kerja dan agen AI menjadi semakin integral dengan operasi sehari-hari, kemampuan untuk menjalankan model-model ini di luar lingkungan pusat data tradisional menjadi sangat penting. NVIDIA menawarkan ekosistem komprehensif sistem klien dan edge, mulai dari gpu yang kuat seperti GPU RTX hingga perangkat Jetson khusus dan DGX Spark, memberikan pengembang fleksibilitas yang dibutuhkan untuk mengoptimalkan biaya, latensi, dan keamanan.

NVIDIA telah berkolaborasi dengan kerangka kerja inferensi terkemuka seperti vLLM, Ollama, dan llama.cpp untuk memastikan pengalaman penyebaran lokal yang optimal untuk model Gemma 4. Selain itu, Unsloth menyediakan dukungan sejak hari pertama dengan model yang dioptimalkan dan terkuantisasi, memungkinkan penyebaran lokal yang efisien melalui Unsloth Studio. Sistem dukungan yang kuat ini memberdayakan pengembang untuk menyebarkan AI canggih langsung di tempat yang paling dibutuhkan.

DGX SparkJetsonRTX / RTX PRO
Kasus PenggunaanPenelitian dan prototipe AIAI Edge dan robotikaAplikasi desktop dan pengembangan Windows
Sorotan UtamaTumpukan perangkat lunak AI NVIDIA yang sudah terinstal dan memori terpadu 128 GB mendukung prototyping lokal, fine-tuning, dan alur kerja OpenClaw yang sepenuhnya lokalLatensi mendekati nol karena fitur arsitektur seperti pemuatan parameter bersyarat dan embeddings per lapisan yang dapat di-cache untuk penggunaan memori yang lebih cepat dan lebih sedikit (info lebih lanjut)Kinerja yang dioptimalkan untuk inferensi lokal bagi penghobi, kreator, dan profesional
Panduan MemulaiDGX Spark Playbooks untuk panduan penyebaran vLLM, Ollama, Unsloth, dan llama.cpp
NeMo Automodel untuk panduan fine-tuning pada Spark
Jetson AI Lab untuk tutorial dan container Gemma khususRTX AI Garage untuk panduan Ollama dan llama.cpp. Pemilik RTX Pro juga dapat menggunakan vLLM.

Tabel 2. Perbandingan opsi penyebaran lokal di seluruh platform NVIDIA, menyoroti kasus penggunaan utama, kemampuan utama, dan sumber daya awal yang direkomendasikan untuk sistem DGX Spark, Jetson, dan RTX / RTX PRO yang menjalankan model Gemma 4.

Membangun Alur Kerja Agentic yang Aman dan Penyebaran Siap-Perusahaan

Bagi pengembang dan penggemar AI, NVIDIA DGX Spark, yang menampilkan Superchip GB10 Grace Blackwell dan memori terpadu 128 GB, menawarkan sumber daya yang tak tertandingi. Platform yang kuat ini sangat ideal untuk menjalankan model Gemma 4 31B dengan bobot BF16, memungkinkan prototyping yang efisien dan pembangunan alur kerja AI agentic yang kompleks sambil memastikan eksekusi pada perangkat yang privat dan aman. Sistem operasi DGX Linux dan tumpukan perangkat lunak NVIDIA yang lengkap menyediakan lingkungan pengembangan yang mulus.

Mesin inferensi vLLM, yang dirancang untuk penyajian LLM throughput tinggi, memaksimalkan efisiensi dan meminimalkan penggunaan memori pada DGX Spark. Kombinasi ini menyediakan platform berkinerja tinggi untuk menyebarkan model Gemma 4 terbesar. Pengembang dapat memanfaatkan panduan vLLM untuk Inferensi DGX Spark atau memulai dengan Ollama atau llama.cpp. Selanjutnya, NeMo Automodel memungkinkan fine-tuning model-model ini langsung di DGX Spark.

Untuk pengguna perusahaan, NVIDIA NIM menawarkan jalur menuju penyebaran yang siap produksi. Pengembang dapat membuat prototipe Gemma 4 31B menggunakan API NIM yang di-hosting NVIDIA dari katalog API NVIDIA. Untuk produksi skala penuh, microservices NIM yang telah dikemas sebelumnya dan dioptimalkan tersedia untuk penyebaran self-hosted yang aman, didukung oleh Lisensi Perusahaan NVIDIA. Ini memastikan bahwa perusahaan dapat menyebarkan solusi AI yang kuat dengan percaya diri, memenuhi persyaratan keamanan dan operasional yang ketat.

Memberdayakan Agen AI Fisik dengan NVIDIA Jetson

Kemampuan agen AI fisik modern berkembang pesat, sebagian besar karena model Gemma 4 mengintegrasikan audio canggih, persepsi multimodal, dan penalaran mendalam. Model-model canggih ini memungkinkan sistem robotika untuk bergerak melampaui eksekusi tugas yang sederhana, memberi mereka kemampuan untuk memahami ucapan, menafsirkan konteks visual, dan bernalar secara cerdas sebelum bertindak.

Pada platform NVIDIA Jetson, pengembang dapat melakukan inferensi Gemma 4 di edge menggunakan llama.cpp dan vLLM. Jetson Orin Nano, misalnya, mendukung varian Gemma 4 E2B dan E4B, memfasilitasi inferensi multimodal pada sistem kecil, tertanam, dan berdaya terbatas. Kemampuan penskalaan ini meluas di seluruh platform Jetson, hingga Jetson Thor yang tangguh, memungkinkan penyebaran model yang konsisten terlepas dari jejak perangkat keras. Ini sangat penting untuk aplikasi dalam robotika, mesin pintar, dan otomatisasi industri di mana kinerja latensi rendah dan kecerdasan pada perangkat adalah yang utama. Pengembang yang tertarik untuk menjelajahi kemampuan ini dapat menemukan tutorial dan container Gemma khusus di Jetson AI Lab.

Kustomisasi dan Aksesibilitas Komersial dengan NVIDIA NeMo

Untuk memastikan bahwa model Gemma 4 dapat disesuaikan dengan aplikasi spesifik dan dataset kepemilikan, NVIDIA menawarkan kemampuan fine-tuning yang kuat melalui kerangka kerja NVIDIA NeMo. Pustaka NeMo Automodel, khususnya, menggabungkan kemudahan penggunaan PyTorch asli dengan kinerja yang dioptimalkan, membuat proses kustomisasi dapat diakses dan efisien.

Pengembang dapat memanfaatkan teknik seperti supervised fine-tuning (SFT) dan LoRA (Low-Rank Adaptation) yang efisien memori untuk melakukan fine-tuning sejak hari pertama. Proses ini dimulai langsung dari checkpoint model Gemma 4 yang tersedia di Hugging Face, menghilangkan kebutuhan akan langkah-langkah konversi yang rumit. Fleksibilitas ini memungkinkan perusahaan dan peneliti untuk menanamkan model Gemma 4 dengan pengetahuan khusus domain, memastikan akurasi dan relevansi tinggi untuk tugas-tugas khusus.

Model Gemma 4 tersedia di seluruh platform AI NVIDIA dan ditawarkan di bawah lisensi Apache 2.0 yang ramah komersial. Lisensi sumber terbuka ini memfasilitasi adopsi dan integrasi yang luas ke dalam produk dan layanan komersial, memberdayakan pengembang di seluruh dunia untuk berinovasi dengan AI mutakhir. Dari kinerja Blackwell hingga keberadaan platform Jetson yang meluas, Gemma 4 siap membawa AI canggih lebih dekat ke setiap pengembang dan setiap perangkat.

Pertanyaan yang Sering Diajukan

What is Gemma 4 and what are its key advancements for AI deployment?
Gemma 4 represents the latest generation of multimodal and multilingual AI models from Google, designed for broad deployment across the entire NVIDIA hardware spectrum, from powerful Blackwell data centers to compact Jetson edge devices. Its key advancements include significantly improved efficiency and accuracy, making it suitable for diverse tasks like complex problem-solving, code generation, and agent tool use. These models boast rich multimodal capabilities, supporting interleaved text and images, and are pre-trained on over 140 languages. This versatility and scalability address the growing demand for local, secure, cost-efficient, and low-latency AI applications, pushing intelligence closer to the source of data and action.
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
Gemma 4 is specifically optimized to enable robust on-device and edge AI deployments, crucial for applications requiring low latency, enhanced privacy, and reduced operational costs. NVIDIA's comprehensive suite of client and edge systems—including RTX GPUs, DGX Spark, and Jetson devices—provides the necessary flexibility and performance. For instance, Jetson platforms support Gemma 4 E2B and E4B variants for multimodal inference on power-constrained embedded systems, while RTX GPUs offer optimized performance for local inference on desktops. Collaborations with vLLM, Ollama, llama.cpp, and Unsloth ensure efficient local deployment experiences across these diverse platforms, empowering developers to integrate advanced AI directly into their applications and devices.
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
NVIDIA DGX Spark provides a powerful platform for AI developers and enthusiasts to prototype and build secure, agentic AI workflows with Gemma 4. Featuring GB10 Grace Blackwell Superchips and 128 GB of unified memory, DGX Spark enables efficient running of even the largest Gemma 4 models with BF16 weights, maintaining private and secure on-device execution. The vLLM inference engine on DGX Spark further optimizes LLM serving for high throughput. For production deployment, NVIDIA NIM offers prepackaged and optimized microservices, providing a secure, self-hosted solution for enterprises with an NVIDIA Enterprise License. A hosted NIM API is also available in the NVIDIA API catalog for initial prototyping.
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
Developers can customize Gemma 4 models with their unique domain data using the NVIDIA NeMo framework, particularly the NeMo Automodel library. This powerful tool combines the ease of use of native PyTorch with optimized performance, allowing for efficient fine-tuning. Techniques such as supervised fine-tuning (SFT) and memory-efficient LoRA (Low-Rank Adaptation) can be applied directly to Gemma 4 model checkpoints available on Hugging Face, eliminating the need for cumbersome conversions. This enables day-zero fine-tuning, ensuring models are highly relevant and accurate for specialized applications and datasets, enhancing their utility across various industry verticals.
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Gemma 4 models are made highly accessible to developers and enterprises through the commercial-friendly Apache 2.0 license. This open-source license allows for broad use, modification, and distribution of the models, facilitating their integration into various commercial products and services without restrictive licensing fees. Furthermore, NVIDIA ensures wide availability across its entire AI platform, from Blackwell data centers to Jetson edge devices. Developers can get started immediately by accessing model checkpoints on Hugging Face, utilizing NVIDIA's extensive documentation and tutorials, and leveraging tools like vLLM, Ollama, and NeMo for deployment and customization, making advanced AI readily available for innovation.

Tetap Update

Dapatkan berita AI terbaru di inbox Anda.

Bagikan