Code Velocity
AI-modellen

Gemma 4: AI schalen van datacenter naar de 'edge' met NVIDIA

·5 min leestijd·NVIDIA·Originele bron
Delen
NVIDIA Gemma 4-modellen die AI mogelijk maken op edge-apparaten en datacenters

Het landschap van kunstmatige intelligentie evolueert snel, met een groeiende vraag om geavanceerde AI-modellen niet alleen in cloud-datacenters te implementeren, maar ook aan de rand van netwerken en rechtstreeks op gebruikersapparaten. Deze verschuiving wordt gedreven door de behoefte aan lagere latentie, verbeterde privacy, lagere operationele kosten en de mogelijkheid om te opereren in omgevingen met beperkte connectiviteit. Om aan deze cruciale vereisten te voldoen, hebben NVIDIA en Google samengewerkt om de nieuwste Gemma 4 multimodale en meertalige modellen te introduceren, ontworpen om naadloos te schalen van de krachtigste NVIDIA Blackwell datacenters tot compacte Jetson edge-apparaten.

Deze modellen vertegenwoordigen een aanzienlijke sprong in efficiëntie en nauwkeurigheid, waardoor ze veelzijdige tools zijn voor een breed scala aan veelvoorkomende AI-taken. De Gemma 4-familie staat klaar om opnieuw te definiëren hoe AI wordt geïntegreerd in alledaagse toepassingen, en biedt mogelijkheden die de grenzen verleggen van wat mogelijk is op het gebied van lokale AI-implementatie.

Gemma 4: Vooruitgang in multimodale en meertalige AI

De Gemmaverse is uitgebreid met de introductie van vier nieuwe Gemma 4-modellen, elk ontworpen met specifieke implementatiescenario's in gedachten en met een robuuste set aan mogelijkheden. Deze modellen gaan niet alleen over grootte; ze gaan over intelligent ontwerp en leveren sterke prestaties bij diverse AI-uitdagingen.

De kernmogelijkheden van de Gemma 4-modellen omvatten:

  • Redenering: Uitzonderlijke prestaties bij complexe probleemoplossende taken, wat geavanceerdere besluitvorming mogelijk maakt.
  • Codering: Geavanceerde code generatie en debug features, wat de workflows van ontwikkelaars stroomlijnt.
  • Agents: Native ondersteuning voor gestructureerd toolgebruik, wat de creatie van krachtige agentische AI-systemen faciliteert.
  • Visie, Audio en Video Mogelijkheden: Rijke multimodale interacties voor gebruiksscenario's zoals objectherkenning, automatische spraakherkenning (ASR), document- en video-intelligentie.
  • Interleaved Multimodale Invoer: De mogelijkheid om tekst en afbeeldingen vrijelijk te combineren binnen één enkele prompt, wat een natuurlijkere en uitgebreidere interactie biedt.
  • Meertalige Ondersteuning: Out-of-the-box ondersteuning voor meer dan 35 talen, met pre-training in meer dan 140 talen, wat de wereldwijde toegankelijkheid vergroot.

De Gemma 4-familie omvat het eerste Mixture-of-Experts (MoE) model in de Gemma-serie, geoptimaliseerd voor efficiëntie. Opmerkelijk is dat alle vier modellen passen op één enkele NVIDIA H100 GPU, wat hun geoptimaliseerde ontwerp aantoont. De 31B en 26B A4B varianten zijn hoogwaardige redeneermodellen die geschikt zijn voor zowel lokale als datacenteromgevingen, terwijl de E4B en E2B modellen specifiek zijn afgestemd op on-device en mobiele toepassingen, voortbouwend op de erfenis van Gemma 3n.

ModelnaamArchitectuurtypeTotaal aantal parametersActieve of effectieve parametersLengte invoercontext (tokens)Schuifvenster (tokens)Modaliteiten
Gemma-4-31BDense Transformer31B256K1024Tekst
Gemma-4-26B-A4BMoE – 128 Experts26B3.8B256KTekst
Gemma-4-E4BDense Transformer7.9B met embeddings4.5B effectief128K512Tekst, Audio, Visie, Video
Gemma-4-E2BDense Transformer5.1B met embeddings2.3B effectief128K512Tekst, Audio, Visie, Video

Tabel 1. Overzicht van de Gemma 4-modelfamilie, met een samenvatting van architectuurtypes, parametergroottes, effectieve parameters, ondersteunde contextlengtes en beschikbare modaliteiten om ontwikkelaars te helpen het juiste model te kiezen voor datacenter-, edge- en on-device-implementaties.

Deze modellen zijn beschikbaar op Hugging Face met BF16 checkpoints. Voor ontwikkelaars die gebruik maken van NVIDIA Blackwell GPU's, is een gekwantiseerd NVFP4 checkpoint voor Gemma-4-31B beschikbaar via NVIDIA Model Optimizer voor gebruik met vLLM. NVFP4-precisie behoudt een bijna identieke nauwkeurigheid als 8-bit precisie, terwijl de prestaties per watt aanzienlijk worden verbeterd en de kosten per token worden verlaagd, wat cruciaal is voor grootschalige implementaties.

AI naar de 'edge' brengen: On-device implementatie met NVIDIA-hardware

Naarmate AI-workflows en agents steeds integraler worden voor dagelijkse operaties, is de mogelijkheid om deze modellen buiten traditionele datacenteromgevingen te drappe van het grootste belang. NVIDIA biedt een uitgebreid ecosysteem van client- en edge-systemen, van krachtige gpus zoals RTX GPU's tot gespecialiseerde Jetson-apparaten en DGX Spark, waardoor ontwikkelaars de flexibiliteit krijgen die nodig is om te optimaliseren voor kosten, latentie en beveiliging.

NVIDIA heeft samengewerkt met toonaangevende inferentie-frameworks zoals vLLM, Ollama en llama.cpp om een optimale lokale implementatie-ervaring voor Gemma 4-modellen te garanderen. Bovendien biedt Unsloth 'day-one' ondersteuning met geoptimaliseerde en gekwantiseerde modellen, wat een efficiënte lokale implementatie mogelijk maakt via Unsloth Studio. Dit robuuste ondersteuningssysteem stelt ontwikkelaars in staat geavanceerde AI rechtstreeks te implementeren waar deze het meest nodig is.

DGX SparkJetsonRTX / RTX PRO
GebruiksscenarioAI-onderzoek en prototypingEdge AI en roboticaDesktop-apps en Windows-ontwikkeling
Belangrijkste hoogtepuntenEen vooraf geïnstalleerde NVIDIA AI-softwarestack en 128 GB aan uniform geheugen voeden lokaal prototypen, fine-tuning en volledig lokale OpenClaw-workflowsBijna nul latentie dankzij architectuurkenmerken zoals voorwaardelijke parameterlading en per-laag embeddings die in de cache kunnen worden opgeslagen voor sneller en minder geheugengebruik ( meer info)Geoptimaliseerde prestaties voor lokale inferentie voor hobbyisten, makers en professionals
Handleiding voor beginnersDGX Spark Playbooks voor implementatiegidsen voor vLLM, Ollama, Unsloth en llama.cpp
NeMo Automodel voor fine-tuning op Spark-gids
Jetson AI Lab voor tutorials en aangepaste Gemma-containersRTX AI Garage voor Ollama- en llama.cpp-gidsen. RTX Pro-bezitters kunnen ook vLLM gebruiken.

Tabel 2. Vergelijking van lokale implementatieopties op verschillende NVIDIA-platforms, met de nadruk op primaire gebruiksscenario's, belangrijke mogelijkheden en aanbevolen bronnen om aan de slag te gaan voor DGX Spark-, Jetson- en RTX / RTX PRO-systemen die Gemma 4-modellen draaien.

Veilige agentische workflows en enterprise-ready implementaties bouwen

Voor AI-ontwikkelaars en -enthousiastelingen biedt de NVIDIA DGX Spark, met de GB10 Grace Blackwell Superchip en 128 GB aan uniform geheugen, ongeëvenaarde middelen. Dit robuuste platform is ideaal voor het draaien van het Gemma 4 31B-model met BF16-gewichten, wat efficiënt prototypen en bouwen van complexe agentische AI-workflows mogelijk maakt, terwijl een privé en veilige on-device uitvoering wordt gewaarborgd. Het DGX Linux OS en de volledige NVIDIA-softwarestack bieden een naadloze ontwikkelomgeving.

De vLLM inferentie-engine, ontworpen voor high-throughput LLM-serving, maximaliseert de efficiëntie en minimaliseert het geheugengebruik op DGX Spark. Deze combinatie biedt een krachtig platform voor de implementatie van de grootste Gemma 4-modellen. Ontwikkelaars kunnen gebruikmaken van de vLLM for Inference DGX Spark playbook of aan de slag gaan met Ollama of llama.cpp. Bovendien maakt de NeMo Automodel het mogelijk om deze modellen direct op DGX Spark te fine-tunen.

Voor zakelijke gebruikers biedt NVIDIA NIM een weg naar productieklare implementatie. Ontwikkelaars kunnen Gemma 4 31B prototypen met behulp van een NVIDIA-gehoste NIM API uit de NVIDIA API catalog. Voor grootschalige productie zijn vooraf verpakte en geoptimaliseerde NIM-microservices beschikbaar voor veilige, zelfgehoste implementatie, ondersteund door een NVIDIA Enterprise License. Dit zorgt ervoor dat bedrijven met vertrouwen krachtige AI-oplossingen kunnen implementeren, die voldoen aan strenge beveiligings- en operationele vereisten.

Fysieke AI-agents versterken met NVIDIA Jetson

De mogelijkheden van moderne fysieke AI-agents schuiven snel op, grotendeels dankzij Gemma 4-modellen die geavanceerde audio, multimodale perceptie en diepgaande redenering integreren. Deze geavanceerde modellen stellen robotsystemen in staat verder te gaan dan simpele taakuitvoering, door hen het vermogen te geven spraak te begrijpen, visuele context te interpreteren en intelligent te redeneren voordat ze handelen.

Op NVIDIA Jetson-platforms kunnen ontwikkelaars Gemma 4-inferentie aan de 'edge' uitvoeren met behulp van llama.cpp en vLLM. De Jetson Orin Nano ondersteunt bijvoorbeeld de Gemma 4 E2B- en E4B-varianten, wat multimodale inferentie op kleine, embedded en energiebeperkte systemen mogelijk maakt. Deze schaalbaarheid strekt zich uit over het gehele Jetson-platform, tot aan de formidabele Jetson Thor, waardoor consistente modelimplementatie mogelijk is, ongeacht de hardwarevoetafdruk. Dit is cruciaal voor toepassingen in robotica, slimme machines en industriële automatisering waar lage-latentie prestaties en on-device intelligentie van het grootste belang zijn. Ontwikkelaars die geïnteresseerd zijn in het verkennen van deze mogelijkheden kunnen tutorials en aangepaste Gemma-containers vinden op de Jetson AI Lab.

Aanpassing en commerciële toegankelijkheid met NVIDIA NeMo

Om ervoor te zorgen dat Gemma 4-modellen kunnen worden afgestemd op specifieke toepassingen en bedrijfseigen datasets, biedt NVIDIA robuuste fine-tuning mogelijkheden via het NVIDIA NeMo framework. De NeMo Automodel bibliotheek combineert met name het gebruiksgemak van native PyTorch met geoptimaliseerde prestaties, waardoor het aanpassingsproces toegankelijk en efficiënt wordt.

Ontwikkelaars kunnen technieken zoals supervised fine-tuning (SFT) en geheugenefficiënte LoRA (Low-Rank Adaptation) gebruiken om 'day-zero' fine-tuning uit te voeren. Dit proces begint direct vanaf de Gemma 4 model checkpoints die beschikbaar zijn op Hugging Face, waardoor omslachtige conversiestappen overbodig worden. Deze flexibiliteit stelt bedrijven en onderzoekers in staat Gemma 4-modellen te voorzien van domeinspecifieke kennis, wat een hoge nauwkeurigheid en relevantie voor gespecialiseerde taken garandeert.

Gemma 4-modellen zijn direct beschikbaar via het gehele NVIDIA AI-platform en worden aangeboden onder de commercieel vriendelijke Apache 2.0-licentie. Deze open-source licentie faciliteert brede adoptie en integratie in commerciële producten en diensten, waardoor ontwikkelaars wereldwijd de mogelijkheid krijgen om te innoveren met geavanceerde AI. Van de prestaties van Blackwell tot de alomtegenwoordigheid van Jetson-platforms, Gemma 4 staat klaar om geavanceerde AI dichter bij elke ontwikkelaar en elk apparaat te brengen.

Veelgestelde vragen

What is Gemma 4 and what are its key advancements for AI deployment?
Gemma 4 represents the latest generation of multimodal and multilingual AI models from Google, designed for broad deployment across the entire NVIDIA hardware spectrum, from powerful Blackwell data centers to compact Jetson edge devices. Its key advancements include significantly improved efficiency and accuracy, making it suitable for diverse tasks like complex problem-solving, code generation, and agent tool use. These models boast rich multimodal capabilities, supporting interleaved text and images, and are pre-trained on over 140 languages. This versatility and scalability address the growing demand for local, secure, cost-efficient, and low-latency AI applications, pushing intelligence closer to the source of data and action.
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
Gemma 4 is specifically optimized to enable robust on-device and edge AI deployments, crucial for applications requiring low latency, enhanced privacy, and reduced operational costs. NVIDIA's comprehensive suite of client and edge systems—including RTX GPUs, DGX Spark, and Jetson devices—provides the necessary flexibility and performance. For instance, Jetson platforms support Gemma 4 E2B and E4B variants for multimodal inference on power-constrained embedded systems, while RTX GPUs offer optimized performance for local inference on desktops. Collaborations with vLLM, Ollama, llama.cpp, and Unsloth ensure efficient local deployment experiences across these diverse platforms, empowering developers to integrate advanced AI directly into their applications and devices.
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
NVIDIA DGX Spark provides a powerful platform for AI developers and enthusiasts to prototype and build secure, agentic AI workflows with Gemma 4. Featuring GB10 Grace Blackwell Superchips and 128 GB of unified memory, DGX Spark enables efficient running of even the largest Gemma 4 models with BF16 weights, maintaining private and secure on-device execution. The vLLM inference engine on DGX Spark further optimizes LLM serving for high throughput. For production deployment, NVIDIA NIM offers prepackaged and optimized microservices, providing a secure, self-hosted solution for enterprises with an NVIDIA Enterprise License. A hosted NIM API is also available in the NVIDIA API catalog for initial prototyping.
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
Developers can customize Gemma 4 models with their unique domain data using the NVIDIA NeMo framework, particularly the NeMo Automodel library. This powerful tool combines the ease of use of native PyTorch with optimized performance, allowing for efficient fine-tuning. Techniques such as supervised fine-tuning (SFT) and memory-efficient LoRA (Low-Rank Adaptation) can be applied directly to Gemma 4 model checkpoints available on Hugging Face, eliminating the need for cumbersome conversions. This enables day-zero fine-tuning, ensuring models are highly relevant and accurate for specialized applications and datasets, enhancing their utility across various industry verticals.
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Gemma 4 models are made highly accessible to developers and enterprises through the commercial-friendly Apache 2.0 license. This open-source license allows for broad use, modification, and distribution of the models, facilitating their integration into various commercial products and services without restrictive licensing fees. Furthermore, NVIDIA ensures wide availability across its entire AI platform, from Blackwell data centers to Jetson edge devices. Developers can get started immediately by accessing model checkpoints on Hugging Face, utilizing NVIDIA's extensive documentation and tutorials, and leveraging tools like vLLM, Ollama, and NeMo for deployment and customization, making advanced AI readily available for innovation.

Blijf op de hoogte

Ontvang het laatste AI-nieuws in je inbox.

Delen