Code Velocity
AI-modeller

Gemma 4: Skalning av AI från datacentret till gränsenheter med NVIDIA

·5 min läsning·NVIDIA·Originalkälla
Dela
NVIDIA Gemma 4-modeller som möjliggör AI på gränsenheter och i datacenter

Landskapet för artificiell intelligens utvecklas snabbt, med en växande efterfrågan på att driftsätta avancerade AI-modeller inte bara i molnbaserade datacenter, utan också vid nätverkens ytterkant och direkt på användarens enheter. Denna förändring drivs av behovet av lägre latens, förbättrad integritet, minskade driftskostnader och förmågan att fungera i miljöer med begränsad uppkoppling. För att möta dessa kritiska krav har NVIDIA och Google samarbetat för att introducera de senaste Gemma 4 multimodala och flerspråkiga modellerna, konstruerade för att sömlöst skalas från de mest kraftfulla NVIDIA Blackwell-datacentren ner till kompakta Jetson-gränsenheter.

Dessa modeller representerar ett betydande framsteg inom effektivitet och noggrannhet, vilket gör dem till mångsidiga verktyg för ett brett spektrum av vanliga AI-uppgifter. Gemma 4-familjen är redo att omdefiniera hur AI integreras i vardagliga applikationer, och erbjuder funktioner som tänjer på gränserna för vad som är möjligt inom lokal AI-driftsättning.

Gemma 4: Framsteg inom multimodal och flerspråkig AI

Gemmaverse har utökats med introduktionen av fyra nya Gemma 4-modeller, var och en designad med specifika driftsättningsscenarier i åtanke samtidigt som de erbjuder en robust uppsättning funktioner. Dessa modeller handlar inte bara om storlek; de handlar om intelligent design, som levererar stark prestanda över olika AI-utmaningar.

Kärnfunktioner hos Gemma 4-modellerna inkluderar:

  • Resonemang: Exceptionell prestanda vid komplexa problemlösningsuppgifter, vilket möjliggör mer sofistikerade beslutsfattande.
  • Kodning: Avancerad kodgenerering och felsökningsfunktioner, som effektiviserar utvecklares arbetsflöden.
  • Agenter: Naturligt stöd för strukturerad verktygsanvändning, vilket underlättar skapandet av kraftfulla agentiska AI-system.
  • Bild-, Ljud- och Videokapacitet: Rika multimodala interaktioner för användningsfall som objektsigenkänning, automatisk taligenkänning (ASR), dokument- och videointelligens.
  • Sammanflätad Multimodal Input: Möjligheten att fritt blanda text och bilder inom en enda prompt, vilket erbjuder mer naturlig och omfattande interaktion.
  • Flerspråkigt Stöd: Omedelbart stöd för över 35 språk, med förträning över mer än 140 språk, vilket breddar den globala tillgängligheten.

Gemma 4-familjen inkluderar den första Mixture-of-Experts (MoE)-modellen i Gemma-serien, optimerad för effektivitet. Anmärkningsvärt nog kan alla fyra modeller rymmas på en enda NVIDIA H100 GPU, vilket visar deras optimerade design. 31B- och 26B A4B-varianterna är högpresterande resonemangsmodeller lämpliga för både lokala miljöer och datacenter, medan E4B- och E2B-modellerna är specifikt anpassade för enhets- och mobilapplikationer, byggande på arvet från Gemma 3n.

ModellnamnArkitekturtypTotalt antal parametrarAktiva eller effektiva parametrarInput Kontextlängd (Tokens)Glidande fönster (Tokens)Modaliteter
Gemma-4-31BDense Transformer31B256K1024Text
Gemma-4-26B-A4BMoE – 128 Experts26B3.8B256KText
Gemma-4-E4BDense Transformer7.9B with embeddings4.5B effective128K512Text, Audio, Vision, Video
Gemma-4-E2BDense Transformer5.1B with embeddings2.3B effective128K512Text, Audio, Vision, Video

Tabell 1. Översikt över Gemma 4-modellfamiljen, som sammanfattar arkitekturtyper, parameterstorlekar, effektiva parametrar, stödda kontextlängder och tillgängliga modaliteter för att hjälpa utvecklare att välja rätt modell för driftsättning i datacenter, vid gränsen och på enheter.

Dessa modeller finns tillgängliga på Hugging Face med BF16-kontrollpunkter. För utvecklare som använder NVIDIA Blackwell GPU:er finns en NVFP4-kvantiserad kontrollpunkt för Gemma-4-31B tillgänglig via NVIDIA Model Optimizer för användning med vLLM. NVFP4-precisionen bibehåller nästan identisk noggrannhet som 8-bitars precision samtidigt som den avsevärt förbättrar prestanda per watt och sänker kostnaden per token, vilket är avgörande för storskaliga driftsättningar.

Att föra AI till gränsen: Driftsättning på enheter med NVIDIA-hårdvara

Eftersom AI-arbetsflöden och agenter blir alltmer integrerade i den dagliga verksamheten, är förmågan att köra dessa modeller bortom traditionella datacentermiljöer av yttersta vikt. NVIDIA erbjuder ett omfattande ekosystem av klient- och gränsystem, från kraftfulla gpus som RTX GPU:er till specialiserade Jetson-enheter och DGX Spark, vilket ger utvecklare den flexibilitet som behövs för att optimera för kostnad, latens och säkerhet.

NVIDIA har samarbetat med ledande inferensramverk som vLLM, Ollama och llama.cpp för att säkerställa en optimal lokal driftsättningsupplevelse för Gemma 4-modeller. Dessutom erbjuder Unsloth stöd från 'dag ett' med optimerade och kvantiserade modeller, vilket möjliggör effektiv lokal driftsättning via Unsloth Studio. Detta robusta stödsystem ger utvecklare möjlighet att driftsätta sofistikerad AI direkt där den behövs som mest.

DGX SparkJetsonRTX / RTX PRO
AnvändningsfallAI-forskning och prototypningGräns-AI och robotikSkrivbordsapplikationer och Windows-utveckling
Viktiga höjdpunkterEn förinstallerad NVIDIA AI-mjukvarustack och 128 GB enhetligt minne driver lokal prototypning, finjustering och helt lokala OpenClaw-arbetsflödenNästan noll latens tack vare arkitekturfunktioner som villkorlig parameterladdning och per-lager-inbäddningar som kan cachelagras för snabbare och minskad minnesanvändning ( mer info)Optimerad prestanda för lokal inferens för hobbyister, kreatörer och professionella
Kom igång-guideDGX Spark Playbooks för vLLM, Ollama, Unsloth och llama.cpp driftsättningsguider
NeMo Automodel för finjustering på Spark-guide
Jetson AI Lab för handledningar och anpassade Gemma-containrarRTX AI Garage för Ollama- och llama.cpp-guider. RTX Pro-ägare kan även använda vLLM.

Tabell 2. Jämförelse av lokala driftsättningsalternativ över NVIDIA-plattformar, med fokus på primära användningsfall, nyckelfunktioner och rekommenderade resurser för att komma igång med DGX Spark, Jetson och RTX / RTX PRO-system som kör Gemma 4-modeller.

Bygga säkra agentiska arbetsflöden och företagsklara driftsättningar

För AI-utvecklare och entusiaster erbjuder NVIDIA DGX Spark, med GB10 Grace Blackwell Superchip och 128 GB enhetligt minne, oöverträffade resurser. Denna robusta plattform är idealisk för att köra Gemma 4 31B-modellen med BF16-vikter, vilket möjliggör effektiv prototypning och byggande av komplexa agentiska AI-arbetsflöden samtidigt som privat och säker exekvering på enheten säkerställs. DGX Linux OS och hela NVIDIA-mjukvarustacken tillhandahåller en sömlös utvecklingsmiljö.

vLLM-inferensmotorn, designad för LLM-servering med hög genomströmning, maximerar effektiviteten och minimerar minnesanvändningen på DGX Spark. Denna kombination ger en högpresterande plattform för att driftsätta de största Gemma 4-modellerna. Utvecklare kan utnyttja vLLM för Inferens DGX Spark playbook eller komma igång med Ollama eller llama.cpp. Dessutom tillåter NeMo Automodel finjustering av dessa modeller direkt på DGX Spark.

För företagsanvändare erbjuder NVIDIA NIM en väg till produktionsklar driftsättning. Utvecklare kan prototypa Gemma 4 31B med hjälp av en NVIDIA-hostad NIM API från NVIDIA API-katalogen. För fullskalig produktion finns förpackade och optimerade NIM-mikrotjänster tillgängliga för säker, självhostad driftsättning, med stöd av en NVIDIA Enterprise License. Detta säkerställer att företag kan driftsätta kraftfulla AI-lösningar med förtroende, och uppfylla stränga säkerhets- och operativa krav.

Stärka fysiska AI-agenter med NVIDIA Jetson

Förmågorna hos moderna fysiska AI-agenter utvecklas snabbt, till stor del tack vare att Gemma 4-modeller integrerar sofistikerad ljud-, multimodal perception och djupt resonemang. Dessa avancerade modeller gör det möjligt för robotsystem att gå bortom enkel uppgiftsutförande, vilket ger dem förmågan att förstå tal, tolka visuellt sammanhang och resonera intelligent innan de agerar.

På NVIDIA Jetson-plattformar kan utvecklare utföra Gemma 4-inferens vid gränsen med hjälp av llama.cpp och vLLM. Jetson Orin Nano, till exempel, stöder Gemma 4 E2B- och E4B-varianterna, vilket underlättar multimodal inferens på små, inbäddade och strömbegränsade system. Denna skalningsförmåga sträcker sig över hela Jetson-plattformen, upp till den formidabla Jetson Thor, vilket möjliggör konsekvent modelldistribution oavsett hårdvarufotavtryck. Detta är avgörande för applikationer inom robotik, smarta maskiner och industriell automation där låg latensprestanda och on-device intelligens är av största vikt. Utvecklare som är intresserade av att utforska dessa funktioner kan hitta handledningar och anpassade Gemma-containrar på Jetson AI Lab.

Anpassning och kommersiell tillgänglighet med NVIDIA NeMo

För att säkerställa att Gemma 4-modeller kan anpassas till specifika applikationer och proprietära dataset, erbjuder NVIDIA robusta finjusteringsmöjligheter genom NVIDIA NeMo-ramverket. NeMo Automodel-biblioteket kombinerar i synnerhet PyTorchs enkla användning med optimerad prestanda, vilket gör anpassningsprocessen tillgänglig och effektiv.

Utvecklare kan utnyttja tekniker som övervakad finjustering (SFT) och minneseffektiv LoRA (Low-Rank Adaptation) för att utföra 'dag noll'-finjustering. Denna process startar direkt från Gemma 4-modellkontrollpunkterna som finns tillgängliga på Hugging Face, vilket eliminerar behovet av besvärliga konverteringssteg. Denna flexibilitet gör det möjligt för företag och forskare att förse Gemma 4-modeller med domänspecifik kunskap, vilket säkerställer hög noggrannhet och relevans för specialiserade uppgifter.

Gemma 4-modeller finns lätt tillgängliga över hela NVIDIAs AI-plattform och erbjuds under den kommersiellt vänliga Apache 2.0-licensen. Denna öppen källkodslicens underlättar bred adoption och integration i kommersiella produkter och tjänster, vilket ger utvecklare världen över möjlighet att innovera med banbrytande AI. Från Blackwells prestanda till Jetson-plattformarnas allestädesnärvaro är Gemma 4 redo att föra avancerad AI närmare varje utvecklare och varje enhet.

Vanliga frågor

What is Gemma 4 and what are its key advancements for AI deployment?
Gemma 4 represents the latest generation of multimodal and multilingual AI models from Google, designed for broad deployment across the entire NVIDIA hardware spectrum, from powerful Blackwell data centers to compact Jetson edge devices. Its key advancements include significantly improved efficiency and accuracy, making it suitable for diverse tasks like complex problem-solving, code generation, and agent tool use. These models boast rich multimodal capabilities, supporting interleaved text and images, and are pre-trained on over 140 languages. This versatility and scalability address the growing demand for local, secure, cost-efficient, and low-latency AI applications, pushing intelligence closer to the source of data and action.
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
Gemma 4 is specifically optimized to enable robust on-device and edge AI deployments, crucial for applications requiring low latency, enhanced privacy, and reduced operational costs. NVIDIA's comprehensive suite of client and edge systems—including RTX GPUs, DGX Spark, and Jetson devices—provides the necessary flexibility and performance. For instance, Jetson platforms support Gemma 4 E2B and E4B variants for multimodal inference on power-constrained embedded systems, while RTX GPUs offer optimized performance for local inference on desktops. Collaborations with vLLM, Ollama, llama.cpp, and Unsloth ensure efficient local deployment experiences across these diverse platforms, empowering developers to integrate advanced AI directly into their applications and devices.
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
NVIDIA DGX Spark provides a powerful platform for AI developers and enthusiasts to prototype and build secure, agentic AI workflows with Gemma 4. Featuring GB10 Grace Blackwell Superchips and 128 GB of unified memory, DGX Spark enables efficient running of even the largest Gemma 4 models with BF16 weights, maintaining private and secure on-device execution. The vLLM inference engine on DGX Spark further optimizes LLM serving for high throughput. For production deployment, NVIDIA NIM offers prepackaged and optimized microservices, providing a secure, self-hosted solution for enterprises with an NVIDIA Enterprise License. A hosted NIM API is also available in the NVIDIA API catalog for initial prototyping.
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
Developers can customize Gemma 4 models with their unique domain data using the NVIDIA NeMo framework, particularly the NeMo Automodel library. This powerful tool combines the ease of use of native PyTorch with optimized performance, allowing for efficient fine-tuning. Techniques such as supervised fine-tuning (SFT) and memory-efficient LoRA (Low-Rank Adaptation) can be applied directly to Gemma 4 model checkpoints available on Hugging Face, eliminating the need for cumbersome conversions. This enables day-zero fine-tuning, ensuring models are highly relevant and accurate for specialized applications and datasets, enhancing their utility across various industry verticals.
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Gemma 4 models are made highly accessible to developers and enterprises through the commercial-friendly Apache 2.0 license. This open-source license allows for broad use, modification, and distribution of the models, facilitating their integration into various commercial products and services without restrictive licensing fees. Furthermore, NVIDIA ensures wide availability across its entire AI platform, from Blackwell data centers to Jetson edge devices. Developers can get started immediately by accessing model checkpoints on Hugging Face, utilizing NVIDIA's extensive documentation and tutorials, and leveraging tools like vLLM, Ollama, and NeMo for deployment and customization, making advanced AI readily available for innovation.

Håll dig uppdaterad

Få de senaste AI-nyheterna i din inkorg.

Dela