Het landschap van kunstmatige intelligentie evolueert snel, met een groeiende vraag om geavanceerde AI-modellen niet alleen in cloud-datacenters te implementeren, maar ook aan de rand van netwerken en rechtstreeks op gebruikersapparaten. Deze verschuiving wordt gedreven door de behoefte aan lagere latentie, verbeterde privacy, lagere operationele kosten en de mogelijkheid om te opereren in omgevingen met beperkte connectiviteit. Om aan deze cruciale vereisten te voldoen, hebben NVIDIA en Google samengewerkt om de nieuwste Gemma 4 multimodale en meertalige modellen te introduceren, ontworpen om naadloos te schalen van de krachtigste NVIDIA Blackwell datacenters tot compacte Jetson edge-apparaten.
Deze modellen vertegenwoordigen een aanzienlijke sprong in efficiëntie en nauwkeurigheid, waardoor ze veelzijdige tools zijn voor een breed scala aan veelvoorkomende AI-taken. De Gemma 4-familie staat klaar om opnieuw te definiëren hoe AI wordt geïntegreerd in alledaagse toepassingen, en biedt mogelijkheden die de grenzen verleggen van wat mogelijk is op het gebied van lokale AI-implementatie.
Gemma 4: Vooruitgang in multimodale en meertalige AI
De Gemmaverse is uitgebreid met de introductie van vier nieuwe Gemma 4-modellen, elk ontworpen met specifieke implementatiescenario's in gedachten en met een robuuste set aan mogelijkheden. Deze modellen gaan niet alleen over grootte; ze gaan over intelligent ontwerp en leveren sterke prestaties bij diverse AI-uitdagingen.
De kernmogelijkheden van de Gemma 4-modellen omvatten:
- Redenering: Uitzonderlijke prestaties bij complexe probleemoplossende taken, wat geavanceerdere besluitvorming mogelijk maakt.
- Codering: Geavanceerde code generatie en debug features, wat de workflows van ontwikkelaars stroomlijnt.
- Agents: Native ondersteuning voor gestructureerd toolgebruik, wat de creatie van krachtige agentische AI-systemen faciliteert.
- Visie, Audio en Video Mogelijkheden: Rijke multimodale interacties voor gebruiksscenario's zoals objectherkenning, automatische spraakherkenning (ASR), document- en video-intelligentie.
- Interleaved Multimodale Invoer: De mogelijkheid om tekst en afbeeldingen vrijelijk te combineren binnen één enkele prompt, wat een natuurlijkere en uitgebreidere interactie biedt.
- Meertalige Ondersteuning: Out-of-the-box ondersteuning voor meer dan 35 talen, met pre-training in meer dan 140 talen, wat de wereldwijde toegankelijkheid vergroot.
De Gemma 4-familie omvat het eerste Mixture-of-Experts (MoE) model in de Gemma-serie, geoptimaliseerd voor efficiëntie. Opmerkelijk is dat alle vier modellen passen op één enkele NVIDIA H100 GPU, wat hun geoptimaliseerde ontwerp aantoont. De 31B en 26B A4B varianten zijn hoogwaardige redeneermodellen die geschikt zijn voor zowel lokale als datacenteromgevingen, terwijl de E4B en E2B modellen specifiek zijn afgestemd op on-device en mobiele toepassingen, voortbouwend op de erfenis van Gemma 3n.
| Modelnaam | Architectuurtype | Totaal aantal parameters | Actieve of effectieve parameters | Lengte invoercontext (tokens) | Schuifvenster (tokens) | Modaliteiten |
|---|---|---|---|---|---|---|
| Gemma-4-31B | Dense Transformer | 31B | — | 256K | 1024 | Tekst |
| Gemma-4-26B-A4B | MoE – 128 Experts | 26B | 3.8B | 256K | — | Tekst |
| Gemma-4-E4B | Dense Transformer | 7.9B met embeddings | 4.5B effectief | 128K | 512 | Tekst, Audio, Visie, Video |
| Gemma-4-E2B | Dense Transformer | 5.1B met embeddings | 2.3B effectief | 128K | 512 | Tekst, Audio, Visie, Video |
Tabel 1. Overzicht van de Gemma 4-modelfamilie, met een samenvatting van architectuurtypes, parametergroottes, effectieve parameters, ondersteunde contextlengtes en beschikbare modaliteiten om ontwikkelaars te helpen het juiste model te kiezen voor datacenter-, edge- en on-device-implementaties.
Deze modellen zijn beschikbaar op Hugging Face met BF16 checkpoints. Voor ontwikkelaars die gebruik maken van NVIDIA Blackwell GPU's, is een gekwantiseerd NVFP4 checkpoint voor Gemma-4-31B beschikbaar via NVIDIA Model Optimizer voor gebruik met vLLM. NVFP4-precisie behoudt een bijna identieke nauwkeurigheid als 8-bit precisie, terwijl de prestaties per watt aanzienlijk worden verbeterd en de kosten per token worden verlaagd, wat cruciaal is voor grootschalige implementaties.
AI naar de 'edge' brengen: On-device implementatie met NVIDIA-hardware
Naarmate AI-workflows en agents steeds integraler worden voor dagelijkse operaties, is de mogelijkheid om deze modellen buiten traditionele datacenteromgevingen te drappe van het grootste belang. NVIDIA biedt een uitgebreid ecosysteem van client- en edge-systemen, van krachtige gpus zoals RTX GPU's tot gespecialiseerde Jetson-apparaten en DGX Spark, waardoor ontwikkelaars de flexibiliteit krijgen die nodig is om te optimaliseren voor kosten, latentie en beveiliging.
NVIDIA heeft samengewerkt met toonaangevende inferentie-frameworks zoals vLLM, Ollama en llama.cpp om een optimale lokale implementatie-ervaring voor Gemma 4-modellen te garanderen. Bovendien biedt Unsloth 'day-one' ondersteuning met geoptimaliseerde en gekwantiseerde modellen, wat een efficiënte lokale implementatie mogelijk maakt via Unsloth Studio. Dit robuuste ondersteuningssysteem stelt ontwikkelaars in staat geavanceerde AI rechtstreeks te implementeren waar deze het meest nodig is.
| DGX Spark | Jetson | RTX / RTX PRO | |
|---|---|---|---|
| Gebruiksscenario | AI-onderzoek en prototyping | Edge AI en robotica | Desktop-apps en Windows-ontwikkeling |
| Belangrijkste hoogtepunten | Een vooraf geïnstalleerde NVIDIA AI-softwarestack en 128 GB aan uniform geheugen voeden lokaal prototypen, fine-tuning en volledig lokale OpenClaw-workflows | Bijna nul latentie dankzij architectuurkenmerken zoals voorwaardelijke parameterlading en per-laag embeddings die in de cache kunnen worden opgeslagen voor sneller en minder geheugengebruik ( meer info) | Geoptimaliseerde prestaties voor lokale inferentie voor hobbyisten, makers en professionals |
| Handleiding voor beginners | DGX Spark Playbooks voor implementatiegidsen voor vLLM, Ollama, Unsloth en llama.cpp NeMo Automodel voor fine-tuning op Spark-gids | Jetson AI Lab voor tutorials en aangepaste Gemma-containers | RTX AI Garage voor Ollama- en llama.cpp-gidsen. RTX Pro-bezitters kunnen ook vLLM gebruiken. |
Tabel 2. Vergelijking van lokale implementatieopties op verschillende NVIDIA-platforms, met de nadruk op primaire gebruiksscenario's, belangrijke mogelijkheden en aanbevolen bronnen om aan de slag te gaan voor DGX Spark-, Jetson- en RTX / RTX PRO-systemen die Gemma 4-modellen draaien.
Veilige agentische workflows en enterprise-ready implementaties bouwen
Voor AI-ontwikkelaars en -enthousiastelingen biedt de NVIDIA DGX Spark, met de GB10 Grace Blackwell Superchip en 128 GB aan uniform geheugen, ongeëvenaarde middelen. Dit robuuste platform is ideaal voor het draaien van het Gemma 4 31B-model met BF16-gewichten, wat efficiënt prototypen en bouwen van complexe agentische AI-workflows mogelijk maakt, terwijl een privé en veilige on-device uitvoering wordt gewaarborgd. Het DGX Linux OS en de volledige NVIDIA-softwarestack bieden een naadloze ontwikkelomgeving.
De vLLM inferentie-engine, ontworpen voor high-throughput LLM-serving, maximaliseert de efficiëntie en minimaliseert het geheugengebruik op DGX Spark. Deze combinatie biedt een krachtig platform voor de implementatie van de grootste Gemma 4-modellen. Ontwikkelaars kunnen gebruikmaken van de vLLM for Inference DGX Spark playbook of aan de slag gaan met Ollama of llama.cpp. Bovendien maakt de NeMo Automodel het mogelijk om deze modellen direct op DGX Spark te fine-tunen.
Voor zakelijke gebruikers biedt NVIDIA NIM een weg naar productieklare implementatie. Ontwikkelaars kunnen Gemma 4 31B prototypen met behulp van een NVIDIA-gehoste NIM API uit de NVIDIA API catalog. Voor grootschalige productie zijn vooraf verpakte en geoptimaliseerde NIM-microservices beschikbaar voor veilige, zelfgehoste implementatie, ondersteund door een NVIDIA Enterprise License. Dit zorgt ervoor dat bedrijven met vertrouwen krachtige AI-oplossingen kunnen implementeren, die voldoen aan strenge beveiligings- en operationele vereisten.
Fysieke AI-agents versterken met NVIDIA Jetson
De mogelijkheden van moderne fysieke AI-agents schuiven snel op, grotendeels dankzij Gemma 4-modellen die geavanceerde audio, multimodale perceptie en diepgaande redenering integreren. Deze geavanceerde modellen stellen robotsystemen in staat verder te gaan dan simpele taakuitvoering, door hen het vermogen te geven spraak te begrijpen, visuele context te interpreteren en intelligent te redeneren voordat ze handelen.
Op NVIDIA Jetson-platforms kunnen ontwikkelaars Gemma 4-inferentie aan de 'edge' uitvoeren met behulp van llama.cpp en vLLM. De Jetson Orin Nano ondersteunt bijvoorbeeld de Gemma 4 E2B- en E4B-varianten, wat multimodale inferentie op kleine, embedded en energiebeperkte systemen mogelijk maakt. Deze schaalbaarheid strekt zich uit over het gehele Jetson-platform, tot aan de formidabele Jetson Thor, waardoor consistente modelimplementatie mogelijk is, ongeacht de hardwarevoetafdruk. Dit is cruciaal voor toepassingen in robotica, slimme machines en industriële automatisering waar lage-latentie prestaties en on-device intelligentie van het grootste belang zijn. Ontwikkelaars die geïnteresseerd zijn in het verkennen van deze mogelijkheden kunnen tutorials en aangepaste Gemma-containers vinden op de Jetson AI Lab.
Aanpassing en commerciële toegankelijkheid met NVIDIA NeMo
Om ervoor te zorgen dat Gemma 4-modellen kunnen worden afgestemd op specifieke toepassingen en bedrijfseigen datasets, biedt NVIDIA robuuste fine-tuning mogelijkheden via het NVIDIA NeMo framework. De NeMo Automodel bibliotheek combineert met name het gebruiksgemak van native PyTorch met geoptimaliseerde prestaties, waardoor het aanpassingsproces toegankelijk en efficiënt wordt.
Ontwikkelaars kunnen technieken zoals supervised fine-tuning (SFT) en geheugenefficiënte LoRA (Low-Rank Adaptation) gebruiken om 'day-zero' fine-tuning uit te voeren. Dit proces begint direct vanaf de Gemma 4 model checkpoints die beschikbaar zijn op Hugging Face, waardoor omslachtige conversiestappen overbodig worden. Deze flexibiliteit stelt bedrijven en onderzoekers in staat Gemma 4-modellen te voorzien van domeinspecifieke kennis, wat een hoge nauwkeurigheid en relevantie voor gespecialiseerde taken garandeert.
Gemma 4-modellen zijn direct beschikbaar via het gehele NVIDIA AI-platform en worden aangeboden onder de commercieel vriendelijke Apache 2.0-licentie. Deze open-source licentie faciliteert brede adoptie en integratie in commerciële producten en diensten, waardoor ontwikkelaars wereldwijd de mogelijkheid krijgen om te innoveren met geavanceerde AI. Van de prestaties van Blackwell tot de alomtegenwoordigheid van Jetson-platforms, Gemma 4 staat klaar om geavanceerde AI dichter bij elke ontwikkelaar en elk apparaat te brengen.
Originele bron
https://developer.nvidia.com/blog/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4/Veelgestelde vragen
What is Gemma 4 and what are its key advancements for AI deployment?
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Blijf op de hoogte
Ontvang het laatste AI-nieuws in je inbox.
