Landskapet för artificiell intelligens utvecklas snabbt, med en växande efterfrågan på att driftsätta avancerade AI-modeller inte bara i molnbaserade datacenter, utan också vid nätverkens ytterkant och direkt på användarens enheter. Denna förändring drivs av behovet av lägre latens, förbättrad integritet, minskade driftskostnader och förmågan att fungera i miljöer med begränsad uppkoppling. För att möta dessa kritiska krav har NVIDIA och Google samarbetat för att introducera de senaste Gemma 4 multimodala och flerspråkiga modellerna, konstruerade för att sömlöst skalas från de mest kraftfulla NVIDIA Blackwell-datacentren ner till kompakta Jetson-gränsenheter.
Dessa modeller representerar ett betydande framsteg inom effektivitet och noggrannhet, vilket gör dem till mångsidiga verktyg för ett brett spektrum av vanliga AI-uppgifter. Gemma 4-familjen är redo att omdefiniera hur AI integreras i vardagliga applikationer, och erbjuder funktioner som tänjer på gränserna för vad som är möjligt inom lokal AI-driftsättning.
Gemma 4: Framsteg inom multimodal och flerspråkig AI
Gemmaverse har utökats med introduktionen av fyra nya Gemma 4-modeller, var och en designad med specifika driftsättningsscenarier i åtanke samtidigt som de erbjuder en robust uppsättning funktioner. Dessa modeller handlar inte bara om storlek; de handlar om intelligent design, som levererar stark prestanda över olika AI-utmaningar.
Kärnfunktioner hos Gemma 4-modellerna inkluderar:
- Resonemang: Exceptionell prestanda vid komplexa problemlösningsuppgifter, vilket möjliggör mer sofistikerade beslutsfattande.
- Kodning: Avancerad kodgenerering och felsökningsfunktioner, som effektiviserar utvecklares arbetsflöden.
- Agenter: Naturligt stöd för strukturerad verktygsanvändning, vilket underlättar skapandet av kraftfulla agentiska AI-system.
- Bild-, Ljud- och Videokapacitet: Rika multimodala interaktioner för användningsfall som objektsigenkänning, automatisk taligenkänning (ASR), dokument- och videointelligens.
- Sammanflätad Multimodal Input: Möjligheten att fritt blanda text och bilder inom en enda prompt, vilket erbjuder mer naturlig och omfattande interaktion.
- Flerspråkigt Stöd: Omedelbart stöd för över 35 språk, med förträning över mer än 140 språk, vilket breddar den globala tillgängligheten.
Gemma 4-familjen inkluderar den första Mixture-of-Experts (MoE)-modellen i Gemma-serien, optimerad för effektivitet. Anmärkningsvärt nog kan alla fyra modeller rymmas på en enda NVIDIA H100 GPU, vilket visar deras optimerade design. 31B- och 26B A4B-varianterna är högpresterande resonemangsmodeller lämpliga för både lokala miljöer och datacenter, medan E4B- och E2B-modellerna är specifikt anpassade för enhets- och mobilapplikationer, byggande på arvet från Gemma 3n.
| Modellnamn | Arkitekturtyp | Totalt antal parametrar | Aktiva eller effektiva parametrar | Input Kontextlängd (Tokens) | Glidande fönster (Tokens) | Modaliteter |
|---|---|---|---|---|---|---|
| Gemma-4-31B | Dense Transformer | 31B | — | 256K | 1024 | Text |
| Gemma-4-26B-A4B | MoE – 128 Experts | 26B | 3.8B | 256K | — | Text |
| Gemma-4-E4B | Dense Transformer | 7.9B with embeddings | 4.5B effective | 128K | 512 | Text, Audio, Vision, Video |
| Gemma-4-E2B | Dense Transformer | 5.1B with embeddings | 2.3B effective | 128K | 512 | Text, Audio, Vision, Video |
Tabell 1. Översikt över Gemma 4-modellfamiljen, som sammanfattar arkitekturtyper, parameterstorlekar, effektiva parametrar, stödda kontextlängder och tillgängliga modaliteter för att hjälpa utvecklare att välja rätt modell för driftsättning i datacenter, vid gränsen och på enheter.
Dessa modeller finns tillgängliga på Hugging Face med BF16-kontrollpunkter. För utvecklare som använder NVIDIA Blackwell GPU:er finns en NVFP4-kvantiserad kontrollpunkt för Gemma-4-31B tillgänglig via NVIDIA Model Optimizer för användning med vLLM. NVFP4-precisionen bibehåller nästan identisk noggrannhet som 8-bitars precision samtidigt som den avsevärt förbättrar prestanda per watt och sänker kostnaden per token, vilket är avgörande för storskaliga driftsättningar.
Att föra AI till gränsen: Driftsättning på enheter med NVIDIA-hårdvara
Eftersom AI-arbetsflöden och agenter blir alltmer integrerade i den dagliga verksamheten, är förmågan att köra dessa modeller bortom traditionella datacentermiljöer av yttersta vikt. NVIDIA erbjuder ett omfattande ekosystem av klient- och gränsystem, från kraftfulla gpus som RTX GPU:er till specialiserade Jetson-enheter och DGX Spark, vilket ger utvecklare den flexibilitet som behövs för att optimera för kostnad, latens och säkerhet.
NVIDIA har samarbetat med ledande inferensramverk som vLLM, Ollama och llama.cpp för att säkerställa en optimal lokal driftsättningsupplevelse för Gemma 4-modeller. Dessutom erbjuder Unsloth stöd från 'dag ett' med optimerade och kvantiserade modeller, vilket möjliggör effektiv lokal driftsättning via Unsloth Studio. Detta robusta stödsystem ger utvecklare möjlighet att driftsätta sofistikerad AI direkt där den behövs som mest.
| DGX Spark | Jetson | RTX / RTX PRO | |
|---|---|---|---|
| Användningsfall | AI-forskning och prototypning | Gräns-AI och robotik | Skrivbordsapplikationer och Windows-utveckling |
| Viktiga höjdpunkter | En förinstallerad NVIDIA AI-mjukvarustack och 128 GB enhetligt minne driver lokal prototypning, finjustering och helt lokala OpenClaw-arbetsflöden | Nästan noll latens tack vare arkitekturfunktioner som villkorlig parameterladdning och per-lager-inbäddningar som kan cachelagras för snabbare och minskad minnesanvändning ( mer info) | Optimerad prestanda för lokal inferens för hobbyister, kreatörer och professionella |
| Kom igång-guide | DGX Spark Playbooks för vLLM, Ollama, Unsloth och llama.cpp driftsättningsguider NeMo Automodel för finjustering på Spark-guide | Jetson AI Lab för handledningar och anpassade Gemma-containrar | RTX AI Garage för Ollama- och llama.cpp-guider. RTX Pro-ägare kan även använda vLLM. |
Tabell 2. Jämförelse av lokala driftsättningsalternativ över NVIDIA-plattformar, med fokus på primära användningsfall, nyckelfunktioner och rekommenderade resurser för att komma igång med DGX Spark, Jetson och RTX / RTX PRO-system som kör Gemma 4-modeller.
Bygga säkra agentiska arbetsflöden och företagsklara driftsättningar
För AI-utvecklare och entusiaster erbjuder NVIDIA DGX Spark, med GB10 Grace Blackwell Superchip och 128 GB enhetligt minne, oöverträffade resurser. Denna robusta plattform är idealisk för att köra Gemma 4 31B-modellen med BF16-vikter, vilket möjliggör effektiv prototypning och byggande av komplexa agentiska AI-arbetsflöden samtidigt som privat och säker exekvering på enheten säkerställs. DGX Linux OS och hela NVIDIA-mjukvarustacken tillhandahåller en sömlös utvecklingsmiljö.
vLLM-inferensmotorn, designad för LLM-servering med hög genomströmning, maximerar effektiviteten och minimerar minnesanvändningen på DGX Spark. Denna kombination ger en högpresterande plattform för att driftsätta de största Gemma 4-modellerna. Utvecklare kan utnyttja vLLM för Inferens DGX Spark playbook eller komma igång med Ollama eller llama.cpp. Dessutom tillåter NeMo Automodel finjustering av dessa modeller direkt på DGX Spark.
För företagsanvändare erbjuder NVIDIA NIM en väg till produktionsklar driftsättning. Utvecklare kan prototypa Gemma 4 31B med hjälp av en NVIDIA-hostad NIM API från NVIDIA API-katalogen. För fullskalig produktion finns förpackade och optimerade NIM-mikrotjänster tillgängliga för säker, självhostad driftsättning, med stöd av en NVIDIA Enterprise License. Detta säkerställer att företag kan driftsätta kraftfulla AI-lösningar med förtroende, och uppfylla stränga säkerhets- och operativa krav.
Stärka fysiska AI-agenter med NVIDIA Jetson
Förmågorna hos moderna fysiska AI-agenter utvecklas snabbt, till stor del tack vare att Gemma 4-modeller integrerar sofistikerad ljud-, multimodal perception och djupt resonemang. Dessa avancerade modeller gör det möjligt för robotsystem att gå bortom enkel uppgiftsutförande, vilket ger dem förmågan att förstå tal, tolka visuellt sammanhang och resonera intelligent innan de agerar.
På NVIDIA Jetson-plattformar kan utvecklare utföra Gemma 4-inferens vid gränsen med hjälp av llama.cpp och vLLM. Jetson Orin Nano, till exempel, stöder Gemma 4 E2B- och E4B-varianterna, vilket underlättar multimodal inferens på små, inbäddade och strömbegränsade system. Denna skalningsförmåga sträcker sig över hela Jetson-plattformen, upp till den formidabla Jetson Thor, vilket möjliggör konsekvent modelldistribution oavsett hårdvarufotavtryck. Detta är avgörande för applikationer inom robotik, smarta maskiner och industriell automation där låg latensprestanda och on-device intelligens är av största vikt. Utvecklare som är intresserade av att utforska dessa funktioner kan hitta handledningar och anpassade Gemma-containrar på Jetson AI Lab.
Anpassning och kommersiell tillgänglighet med NVIDIA NeMo
För att säkerställa att Gemma 4-modeller kan anpassas till specifika applikationer och proprietära dataset, erbjuder NVIDIA robusta finjusteringsmöjligheter genom NVIDIA NeMo-ramverket. NeMo Automodel-biblioteket kombinerar i synnerhet PyTorchs enkla användning med optimerad prestanda, vilket gör anpassningsprocessen tillgänglig och effektiv.
Utvecklare kan utnyttja tekniker som övervakad finjustering (SFT) och minneseffektiv LoRA (Low-Rank Adaptation) för att utföra 'dag noll'-finjustering. Denna process startar direkt från Gemma 4-modellkontrollpunkterna som finns tillgängliga på Hugging Face, vilket eliminerar behovet av besvärliga konverteringssteg. Denna flexibilitet gör det möjligt för företag och forskare att förse Gemma 4-modeller med domänspecifik kunskap, vilket säkerställer hög noggrannhet och relevans för specialiserade uppgifter.
Gemma 4-modeller finns lätt tillgängliga över hela NVIDIAs AI-plattform och erbjuds under den kommersiellt vänliga Apache 2.0-licensen. Denna öppen källkodslicens underlättar bred adoption och integration i kommersiella produkter och tjänster, vilket ger utvecklare världen över möjlighet att innovera med banbrytande AI. Från Blackwells prestanda till Jetson-plattformarnas allestädesnärvaro är Gemma 4 redo att föra avancerad AI närmare varje utvecklare och varje enhet.
Originalkälla
https://developer.nvidia.com/blog/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4/Vanliga frågor
What is Gemma 4 and what are its key advancements for AI deployment?
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Håll dig uppdaterad
Få de senaste AI-nyheterna i din inkorg.
