title: "Gemma 4: Scaliranje AI od podatkovnega centra do roba z NVIDIA" slug: "bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4" date: "2026-04-05" lang: "sl" source: "https://developer.nvidia.com/blog/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4/" category: "AI modeli" keywords:
- Gemma 4
- NVIDIA
- AI na robu
- AI na napravi
- Večmodalni AI
- LLMs
- Uvajanje AI
- Blackwell
- Jetson
- RTX
- vLLM
- NeMo meta_description: "Raziščite Gemma 4, večmodalne in večjezične modele AI podjetja NVIDIA, zasnovane za brezhibno uvajanje od podatkovnih centrov Blackwell do robnih naprav Jetson, ki poganjajo varne aplikacije z nizko zakasnitvijo." image: "/images/articles/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4.png" image_alt: "NVIDIA Gemma 4 modeli omogočajo AI na robnih napravah in v podatkovnih centrih" quality_score: 94 content_score: 93 seo_score: 95 companies:
- NVIDIA schema_type: "NewsArticle" reading_time: 5 faq:
- question: "Kaj je Gemma 4 in katere so njene ključne izboljšave za uvajanje AI?" answer: "Gemma 4 predstavlja najnovejšo generacijo večmodalnih in večjezičnih modelov AI podjetja Google, zasnovanih za široko uvajanje po celotnem spektru strojne opreme NVIDIA, od zmogljivih podatkovnih centrov Blackwell do kompaktnih robnih naprav Jetson. Njene ključne izboljšave vključujejo bistveno izboljšano učinkovitost in natančnost, zaradi česar je primerna za različne naloge, kot so kompleksno reševanje problemov, generiranje kode in uporaba orodij za agente. Ti modeli se ponašajo z bogatimi večmodalnimi zmogljivostmi, podpirajo prepleteno besedilo in slike ter so predhodno usposobljeni v več kot 140 jezikih. Ta vsestranskost in razširljivost obravnavata naraščajoče povpraševanje po lokalnih, varnih, stroškovno učinkovitih aplikacijah AI z nizko zakasnitvijo, ki inteligenco približujejo viru podatkov in dejanj."
- question: "Kako Gemma 4 omogoča uvajanje AI na napravah in robu, in katere platforme NVIDIA jo podpirajo?" answer: "Gemma 4 je posebej optimizirana za robustno uvajanje AI na napravah in robu, kar je ključno za aplikacije, ki zahtevajo nizko zakasnitev, izboljšano zasebnost in zmanjšane operativne stroške. Celovita zbirka odjemalskih in robnih sistemov NVIDIA – vključno z grafičnimi procesorji RTX, DGX Spark in napravami Jetson – zagotavlja potrebno prilagodljivost in zmogljivost. Na primer, platforme Jetson podpirajo različici Gemma 4 E2B in E4B za večmodalno sklepanje na vgrajenih sistemih z omejeno močjo, medtem ko grafični procesorji RTX ponujajo optimizirano zmogljivost za lokalno sklepanje na namiznih računalnikih. Sodelovanje z vLLM, Ollama, llama.cpp in Unsloth zagotavlja učinkovite izkušnje lokalnega uvajanja na teh različnih platformah, kar razvijalcem omogoča integracijo naprednega AI neposredno v njihove aplikacije in naprave."
- question: "Kakšno vlogo imata NVIDIA DGX Spark in NIM pri razvoju in uvajanju modelov Gemma 4 za podjetja?" answer: "NVIDIA DGX Spark ponuja zmogljivo platformo za razvijalce in navdušence AI za prototipiranje in izgradnjo varnih, agentnih delovnih tokov AI z Gemma 4. Z superčipi GB10 Grace Blackwell in 128 GB enotnega pomnilnika DGX Spark omogoča učinkovito poganjanje tudi največjih modelov Gemma 4 z utežmi BF16, pri čemer ohranja zasebno in varno izvajanje na napravi. Mehanizem za sklepanje vLLM na DGX Sparku dodatno optimizira strežbo LLM za visoko prepustnost. Za produkcijsko uvajanje NVIDIA NIM ponuja vnaprej pripravljene in optimizirane mikrostoritve, ki zagotavljajo varno, samostojno gostovano rešitev za podjetja z licenco NVIDIA Enterprise. Gostovan NIM API je na voljo tudi v katalogu API NVIDIA za začetno prototipiranje."
- question: "Kako lahko razvijalci natančno uglasijo modele Gemma 4 za specifične podatke domene in katera orodja so na voljo?" answer: "Razvijalci lahko modele Gemma 4 prilagodijo svojim edinstvenim podatkom domene z uporabo ogrodja NVIDIA NeMo, zlasti knjižnice NeMo Automodel. To zmogljivo orodje združuje enostavnost uporabe izvornega PyTorcha z optimizirano zmogljivostjo, kar omogoča učinkovito natančno uglaševanje. Tehnike, kot sta nadzorovano natančno uglaševanje (SFT) in pomnilnično učinkovit LoRA (Low-Rank Adaptation), je mogoče uporabiti neposredno na kontrolnih točkah modelov Gemma 4, ki so na voljo na Hugging Face, kar odpravlja potrebo po okornih pretvorbah. To omogoča 'dan-nič' natančno uglaševanje, kar zagotavlja, da so modeli zelo relevantni in natančni za specializirane aplikacije in nabore podatkov, s čimer se povečuje njihova uporabnost v različnih industrijskih vertikalah."
- question: "Kakšni so komercialni licenčni pogoji za modele Gemma 4 in kako dostopni so razvijalcem?" answer: "Modeli Gemma 4 so razvijalcem in podjetjem zelo dostopni prek komercialno prijazne licence Apache 2.0. Ta odprtokodna licenca omogoča široko uporabo, spreminjanje in distribucijo modelov, kar olajšuje njihovo integracijo v različne komercialne izdelke in storitve brez omejevalnih licenčnin. Poleg tega NVIDIA zagotavlja široko dostopnost po celotni platformi AI, od podatkovnih centrov Blackwell do robnih naprav Jetson. Razvijalci lahko takoj začnejo z dostopom do kontrolnih točk modelov na Hugging Face, z uporabo obsežne dokumentacije in vadnic NVIDIA ter z izkoriščanjem orodij, kot so vLLM, Ollama in NeMo za uvajanje in prilagoditev, s čimer je napredni AI takoj na voljo za inovacije."
Pokrajina umetne inteligence se hitro razvija, z naraščajočim povpraševanjem po uvajanju naprednih modelov AI ne le v podatkovnih centrih v oblaku, temveč tudi na samem robu omrežij in neposredno na uporabniških napravah. To spremembo poganja potreba po nižji zakasnitvi, izboljšani zasebnosti, zmanjšanih operativnih stroških in sposobnosti delovanja v okoljih z omejeno povezljivostjo. Za reševanje teh kritičnih zahtev sta NVIDIA in Google sodelovala pri predstavitvi najnovejših večmodalnih in večjezičnih modelov **Gemma 4**, zasnovanih za brezhibno skaliranje od najzmogljivejših podatkovnih centrov NVIDIA Blackwell do kompaktnih robnih naprav Jetson.
Ti modeli predstavljajo pomemben preskok v učinkovitosti in natančnosti, zaradi česar so vsestranska orodja za širok spekter običajnih nalog AI. Družina Gemma 4 je pripravljena redefinirati, kako je AI integriran v vsakodnevne aplikacije, in ponuja zmogljivosti, ki premikajo meje mogočega pri lokalnem uvajanju AI.
## Gemma 4: Napredovanje večmodalnega in večjezičnega AI
Gemmaverse se je razširil z uvedbo štirih novih modelov Gemma 4, od katerih je vsak zasnovan s specifičnimi scenariji uvajanja v mislih, hkrati pa ponuja robusten nabor zmogljivosti. Ti modeli niso le v velikosti; gre za inteligentno zasnovo, ki zagotavlja močno delovanje pri različnih izzivih AI.
Osnovne zmogljivosti modelov Gemma 4 vključujejo:
* **Razmišljanje:** Izjemna zmogljivost pri kompleksnih nalogah reševanja problemov, ki omogoča bolj sofisticirano odločanje.
* **Kodiranje:** Napredne funkcije za generiranje in odpravljanje napak v kodi, ki poenostavljajo delovne tokove razvijalcev.
* **Agenti:** Nativna podpora za strukturirano uporabo orodij, ki omogoča ustvarjanje zmogljivih agentnih sistemov AI.
* **Zmožnost vida, zvoka in videa:** Bogate večmodalne interakcije za primere uporabe, kot so prepoznavanje predmetov, avtomatsko prepoznavanje govora (ASR), inteligenca dokumentov in videoposnetkov.
* **Prepleten večmodalni vhod:** Sposobnost prostega mešanja besedila in slik znotraj enega poziva, kar ponuja bolj naravno in celovito interakcijo.
* **Večjezična podpora:** Takojšnja podpora za več kot 35 jezikov, s predhodnim usposabljanjem v več kot 140 jezikih, kar širi globalno dostopnost.
Družina Gemma 4 vključuje prvi model mešanice strokovnjakov (MoE) v seriji Gemma, optimiziran za učinkovitost. Zanimivo je, da se vsi štirje modeli lahko prilegajo na en sam grafični procesor NVIDIA H100, kar dokazuje njihovo optimizirano zasnovo. Različici 31B in 26B A4B sta visoko zmogljiva modela za razmišljanje, primerna tako za lokalna okolja kot za podatkovne centre, medtem ko sta modela E4B in E2B posebej prilagojena za aplikacije na napravah in mobilnih napravah, gradita na zapuščini Gemma 3n.
| Ime modela | Vrsta arhitekture | Skupno število parametrov | Aktivni ali učinkoviti parametri | Dolžina vhodnega konteksta (žetoni) | Drseče okno (žetoni) | Modalnosti |
| :--------------- | :----------------- | :----------------------- | :----------------------------- | :---------------------------- | :---------------------- | :---------------------- |
| **Gemma-4-31B** | Gost transformator | 31B | — | 256K | 1024 | Besedilo |
| **Gemma-4-26B-A4B** | MoE – 128 strokovnjakov | 26B | 3.8B | 256K | — | Besedilo |
| **Gemma-4-E4B** | Gost transformator | 7.9B z vgradnjami | 4.5B učinkovito | 128K | 512 | Besedilo, zvok, vid, video |
| **Gemma-4-E2B** | Gost transformator | 5.1B z vgradnjami | 2.3B učinkovito | 128K | 512 | Besedilo, zvok, vid, video |
*Tabela 1. Pregled družine modelov Gemma 4, povzetek vrst arhitektur, velikosti parametrov, učinkovitih parametrov, podprtih dolžin konteksta in razpoložljivih modalnosti, ki razvijalcem pomagajo izbrati pravi model za uvajanje v podatkovnem centru, na robu in na napravah.*
Ti modeli so na voljo na Hugging Face z kontrolnimi točkami BF16. Za razvijalce, ki uporabljajo grafične procesorje NVIDIA Blackwell, je kvantizirana kontrolna točka NVFP4 za Gemma-4-31B na voljo prek [NVIDIA Model Optimizer](https://github.com/NVIDIA/Model-Optimizer) za uporabo z vLLM. Natančnost NVFP4 ohranja skoraj enako natančnost kot 8-bitna natančnost, hkrati pa bistveno izboljšuje zmogljivost na vat in znižuje stroške na žeton, kar je ključno za obsežno uvajanje.
## Prenašanje AI na rob: Uvajanje na napravi s strojno opremo NVIDIA
Ker postajajo delovni tokovi in agenti AI vse bolj sestavni del vsakodnevnih operacij, je zmožnost poganjanja teh modelov zunaj tradicionalnih okolij podatkovnih centrov izjemno pomembna. NVIDIA ponuja celovit ekosistem odjemalskih in robnih sistemov, od zmogljivih [grafičnih procesorjev](/sl/gpus), kot so grafični procesorji RTX, do specializiranih naprav Jetson in DGX Spark, kar razvijalcem zagotavlja prilagodljivost, potrebno za optimizacijo stroškov, zakasnitve in varnosti.
NVIDIA je sodelovala z vodilnimi okviri za sklepanje, kot so vLLM, Ollama in llama.cpp, da bi zagotovila optimalno izkušnjo lokalnega uvajanja za modele Gemma 4. Poleg tega Unsloth zagotavlja 'dan-nič' podporo z optimiziranimi in kvantiziranimi modeli, kar omogoča učinkovito lokalno uvajanje prek [Unsloth Studio](https://unsloth.ai/docs/models/gemma-4). Ta robusten sistem podpore omogoča razvijalcem, da uvedejo sofisticirano AI neposredno tam, kjer je to najbolj potrebno.
| | **DGX Spark** | **Jetson** | **RTX / RTX PRO** |
| :---------------------------- | :----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **Primer uporabe** | Raziskave in prototipiranje AI | AI na robu in robotika | Namizne aplikacije in razvoj za Windows |
| **Ključne značilnosti** | Prednameščeni programski sklad NVIDIA AI in 128 GB enotnega pomnilnika omogočata lokalno prototipiranje, natančno uglaševanje in popolnoma lokalne delovne tokove OpenClaw | Skoraj ničelna zakasnitev zaradi arhitekturnih značilnosti, kot so pogojno nalaganje parametrov in vgradnje na plasti, ki jih je mogoče predpomniti za hitrejše delovanje in manjšo porabo pomnilnika ( [več informacij](https://ai.google.dev/gemma/docs/gemma-3n)) | Optimizirana zmogljivost za lokalno sklepanje za hobiste, ustvarjalce in profesionalce |
| **Vodnik za začetek** | [Priročniki DGX Spark](https://build.nvidia.com/spark) za uvajanje vLLM, Ollama, Unsloth in llama.cpp<br/>[NeMo Automodel](https://github.com/NVIDIA-NeMo/Automodel/tree/main/docs/guides/vlm/gemma4.md) za vodnik za natančno uglaševanje na Sparku | [Jetson AI Lab](https://www.jetson-ai-lab.com/models/) za vadnice in prilagojene vsebnik Gemma | [RTX AI Garage](https://blogs.nvidia.com/blog/rtx-ai-garage-open-models-google-gemma-4) za vodnike za Ollama in llama.cpp. Lastniki RTX Pro lahko uporabljajo tudi vLLM. |
*Tabela 2. Primerjava možnosti lokalnega uvajanja na platformah NVIDIA, ki poudarja primarne primere uporabe, ključne zmogljivosti in priporočene vire za začetek za sisteme DGX Spark, Jetson in RTX / RTX PRO, ki poganjajo modele Gemma 4.*
## Izgradnja varnih agentnih delovnih tokov in rešitev za podjetja
Za razvijalce in navdušence AI, NVIDIA DGX Spark, ki vključuje superčip GB10 Grace Blackwell in 128 GB enotnega pomnilnika, ponuja neprimerljive vire. Ta robustna platforma je idealna za poganjanje modela Gemma 4 31B z utežmi BF16, kar omogoča učinkovito prototipiranje in izgradnjo kompleksnih [agentnih delovnih tokov AI](/sl/operationalizing-agentic-ai-part-1-a-stakeholders-guide), hkrati pa zagotavlja zasebno in varno izvajanje na napravi. Operacijski sistem DGX Linux in celoten programski sklad NVIDIA zagotavljata brezhibno razvojno okolje.
Mehanizem za sklepanje vLLM, zasnovan za strežbo LLM z visoko prepustnostjo, maksimira učinkovitost in zmanjšuje porabo pomnilnika na DGX Sparku. Ta kombinacija zagotavlja visoko zmogljivo platformo za uvajanje največjih modelov Gemma 4. Razvijalci lahko izkoristijo [vLLM za sklepanje DGX Spark priročnik](https://build.nvidia.com/spark/vllm) ali začnejo z Ollama ali llama.cpp. Poleg tega NeMo Automodel omogoča natančno uglaševanje teh modelov neposredno na DGX Sparku.
Za poslovne uporabnike NVIDIA NIM ponuja pot do uvajanja, pripravljenega za proizvodnjo. Razvijalci lahko prototipirajo Gemma 4 31B z uporabo API-ja NVIDIA-gostovanega NIM iz [kataloga API NVIDIA](https://catalog.ngc.nvidia.com/orgs/nim/teams/google/containers/gemma-4-31b-it). Za polno proizvodnjo so na voljo vnaprej pripravljene in optimizirane mikrostoritve NIM za varno, samostojno gostovano uvajanje, podprte z licenco NVIDIA Enterprise. To zagotavlja, da lahko podjetja z zaupanjem uvedejo zmogljive rešitve AI, ki izpolnjujejo stroge varnostne in operativne zahteve.
## Opolnomočenje fizičnih agentov AI z NVIDIA Jetson
Zmogljivosti sodobnih fizičnih agentov AI se hitro razvijajo, predvsem zaradi modelov Gemma 4, ki vključujejo sofisticiran zvok, večmodalno percepcijo in globoko razmišljanje. Ti napredni modeli omogočajo robotskim sistemom, da presegajo poenostavljeno izvajanje nalog, saj jim omogočajo razumevanje govora, interpretacijo vizualnega konteksta in inteligentno razmišljanje pred delovanjem.
Na platformah NVIDIA Jetson lahko razvijalci izvajajo sklepanje Gemma 4 na robu z uporabo llama.cpp in vLLM. Jetson Orin Nano, na primer, podpira različici Gemma 4 E2B in E4B, kar omogoča večmodalno sklepanje na majhnih, vgrajenih sistemih z omejeno močjo. Ta zmožnost skaliranja se razprostira po celotni platformi Jetson, vse do mogočnega Jetson Thorja, kar omogoča dosledno uvajanje modelov ne glede na strojno opremo. To je ključnega pomena za aplikacije v robotiki, pametnih strojih in industrijski avtomatizaciji, kjer sta nizka zakasnitev in inteligenca na napravi izjemno pomembni. Razvijalci, ki jih zanima raziskovanje teh zmogljivosti, lahko najdejo vadnice in prilagojene vsebnike Gemma v [Jetson AI Lab](https://www.jetson-ai-lab.com/models/).
## Prilagoditev in komercialna dostopnost z NVIDIA NeMo
Da bi zagotovili, da se modeli Gemma 4 lahko prilagodijo specifičnim aplikacijam in lastniškim naborom podatkov, NVIDIA ponuja robustne zmogljivosti natančnega uglaševanja prek [okvirja NVIDIA NeMo](https://github.com/NVIDIA-NeMo/). Zlasti knjižnica [NeMo Automodel](https://github.com/NVIDIA-NeMo/Automodel/tree/main/docs/guides/vlm/gemma4.md) združuje enostavnost uporabe izvornega PyTorcha z optimizirano zmogljivostjo, kar omogoča dostopen in učinkovit postopek prilagajanja.
Razvijalci lahko izkoristijo tehnike, kot sta nadzorovano natančno uglaševanje (SFT) in pomnilnično učinkovit LoRA (Low-Rank Adaptation), za izvedbo 'dan-nič' natančnega uglaševanja. Ta postopek se začne neposredno od kontrolnih točk modelov Gemma 4, ki so na voljo na [Hugging Face](https://huggingface.co/collections/google/gemma-4), kar odpravlja potrebo po okornih korakih pretvorbe. Ta prilagodljivost omogoča podjetjem in raziskovalcem, da modelom Gemma 4 vtisnejo domensko specifično znanje, kar zagotavlja visoko natančnost in relevantnost za specializirane naloge.
Modeli Gemma 4 so zlahka dostopni po celotni platformi NVIDIA AI in so na voljo pod komercialno prijazno licenco Apache 2.0. Ta odprtokodna licenca omogoča široko sprejetje in integracijo v komercialne izdelke in storitve, kar razvijalcem po vsem svetu omogoča inovacije z najsodobnejšim AI. Od zmogljivosti Blackwell do vseprisotnosti platform Jetson, je Gemma 4 zasnovana tako, da približa napredni AI vsakemu razvijalcu in vsaki napravi.
Izvirni vir
https://developer.nvidia.com/blog/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4/Pogosta vprašanja
What is Gemma 4 and what are its key advancements for AI deployment?
Gemma 4 represents the latest generation of multimodal and multilingual AI models from Google, designed for broad deployment across the entire NVIDIA hardware spectrum, from powerful Blackwell data centers to compact Jetson edge devices. Its key advancements include significantly improved efficiency and accuracy, making it suitable for diverse tasks like complex problem-solving, code generation, and agent tool use. These models boast rich multimodal capabilities, supporting interleaved text and images, and are pre-trained on over 140 languages. This versatility and scalability address the growing demand for local, secure, cost-efficient, and low-latency AI applications, pushing intelligence closer to the source of data and action.
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
Gemma 4 is specifically optimized to enable robust on-device and edge AI deployments, crucial for applications requiring low latency, enhanced privacy, and reduced operational costs. NVIDIA's comprehensive suite of client and edge systems—including RTX GPUs, DGX Spark, and Jetson devices—provides the necessary flexibility and performance. For instance, Jetson platforms support Gemma 4 E2B and E4B variants for multimodal inference on power-constrained embedded systems, while RTX GPUs offer optimized performance for local inference on desktops. Collaborations with vLLM, Ollama, llama.cpp, and Unsloth ensure efficient local deployment experiences across these diverse platforms, empowering developers to integrate advanced AI directly into their applications and devices.
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
NVIDIA DGX Spark provides a powerful platform for AI developers and enthusiasts to prototype and build secure, agentic AI workflows with Gemma 4. Featuring GB10 Grace Blackwell Superchips and 128 GB of unified memory, DGX Spark enables efficient running of even the largest Gemma 4 models with BF16 weights, maintaining private and secure on-device execution. The vLLM inference engine on DGX Spark further optimizes LLM serving for high throughput. For production deployment, NVIDIA NIM offers prepackaged and optimized microservices, providing a secure, self-hosted solution for enterprises with an NVIDIA Enterprise License. A hosted NIM API is also available in the NVIDIA API catalog for initial prototyping.
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
Developers can customize Gemma 4 models with their unique domain data using the NVIDIA NeMo framework, particularly the NeMo Automodel library. This powerful tool combines the ease of use of native PyTorch with optimized performance, allowing for efficient fine-tuning. Techniques such as supervised fine-tuning (SFT) and memory-efficient LoRA (Low-Rank Adaptation) can be applied directly to Gemma 4 model checkpoints available on Hugging Face, eliminating the need for cumbersome conversions. This enables day-zero fine-tuning, ensuring models are highly relevant and accurate for specialized applications and datasets, enhancing their utility across various industry verticals.
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Gemma 4 models are made highly accessible to developers and enterprises through the commercial-friendly Apache 2.0 license. This open-source license allows for broad use, modification, and distribution of the models, facilitating their integration into various commercial products and services without restrictive licensing fees. Furthermore, NVIDIA ensures wide availability across its entire AI platform, from Blackwell data centers to Jetson edge devices. Developers can get started immediately by accessing model checkpoints on Hugging Face, utilizing NVIDIA's extensive documentation and tutorials, and leveraging tools like vLLM, Ollama, and NeMo for deployment and customization, making advanced AI readily available for innovation.
Bodite na tekočem
Prejemajte najnovejše AI novice po e-pošti.
