Landskapet innen kunstig intelligens utvikler seg raskt, med en voksende etterspørsel etter å distribuere avanserte AI-modeller ikke bare i skybaserte datasentre, men også helt ute i nettverkskanten (edge) og direkte på brukerenheter. Dette skiftet drives av behovet for lavere forsinkelse, forbedret personvern, reduserte driftskostnader og evnen til å operere i miljøer med begrenset tilkobling. For å møte disse kritiske kravene har NVIDIA og Google samarbeidet om å introdusere de nyeste Gemma 4 multimodale og flerspråklige modellene, konstruert for å skalere sømløst fra de kraftigste NVIDIA Blackwell-datasentrene ned til kompakte Jetson edge-enheter.
Disse modellene representerer et betydelig sprang i effektivitet og nøyaktighet, noe som gjør dem til allsidige verktøy for et bredt spekter av vanlige AI-oppgaver. Gemma 4-familien er klar til å redefinere hvordan AI integreres i hverdagsapplikasjoner, og tilbyr funksjoner som flytter grensene for hva som er mulig innen lokal AI-distribusjon.
Gemma 4: Fremmer multimodal og flerspråklig AI
Gemmaverse har utvidet seg med introduksjonen av fire nye Gemma 4-modeller, hver designet med spesifikke distribusjonsscenarier i tankene, samtidig som de tilbyr et robust sett med funksjoner. Disse modellene handler ikke bare om størrelse; de handler om intelligent design, som leverer sterk ytelse på tvers av ulike AI-utfordringer.
Kjernefunksjonene til Gemma 4-modellene inkluderer:
- Resonnering: Enestående ytelse på komplekse problemløsningsoppgaver, noe som muliggjør mer sofistikert beslutningstaking.
- Koding: Avanserte funksjoner for kodegenerering og feilsøking, som effektiviserer utviklerarbeidsflyter.
- Agenter: Innebygd støtte for strukturert verktøybruk, som letter opprettelsen av kraftige agentiske AI-systemer.
- Syn, lyd og videofunksjonalitet: Rike multimodale interaksjoner for brukstilfeller som objektgjenkjenning, automatisert talegjenkjenning (ASR), dokument- og videointelligens.
- Vekslende multimodal input: Evnen til å fritt blande tekst og bilder i en enkelt prompt, noe som gir mer naturlig og omfattende interaksjon.
- Flerspråklig støtte: Ferdig støtte for over 35 språk, med forhåndstrening på over 140 språk, noe som utvider global tilgjengelighet.
Gemma 4-familien inkluderer den første Mixture-of-Experts (MoE)-modellen i Gemma-serien, optimalisert for effektivitet. Bemerkelsesverdig nok kan alle fire modellene passe på en enkelt NVIDIA H100 GPU, noe som demonstrerer deres optimaliserte design. 31B- og 26B A4B-variantene er høyytelses resonneringsmodeller egnet for både lokale og datasentermiljøer, mens E4B- og E2B-modellene er spesifikt skreddersydd for enhets- og mobilapplikasjoner, og bygger videre på arven fra Gemma 3n.
| Modellnavn | Arkitekturtype | Totale parametere | Aktive eller effektive parametere | Lengde på inndatakontekst (Tokens) | Skyvevindu (Tokens) | Modaliteter |
|---|---|---|---|---|---|---|
| Gemma-4-31B | Dense Transformer | 31B | — | 256K | 1024 | Text |
| Gemma-4-26B-A4B | MoE – 128 Experts | 26B | 3.8B | 256K | — | Text |
| Gemma-4-E4B | Dense Transformer | 7.9B with embeddings | 4.5B effective | 128K | 512 | Text, Audio, Vision, Video |
| Gemma-4-E2B | Dense Transformer | 5.1B with embeddings | 2.3B effective | 128K | 512 | Text, Audio, Vision, Video |
Tabell 1. Oversikt over Gemma 4-modellfamilien, som oppsummerer arkitekturtyper, parameterstørrelser, effektive parametere, støttede kontekstlengder og tilgjengelige modaliteter for å hjelpe utviklere med å velge riktig modell for distribusjon i datasenter, edge og på enheter.
Disse modellene er tilgjengelige på Hugging Face med BF16-sjekkpunkter. For utviklere som bruker NVIDIA Blackwell GPU-er, er et NVFP4 kvantisert sjekkpunkt for Gemma-4-31B tilgjengelig via NVIDIA Model Optimizer for bruk med vLLM. NVFP4-presisjon opprettholder nesten identisk nøyaktighet som 8-biters presisjon, samtidig som den betydelig forbedrer ytelsen per watt og senker kostnaden per token, noe som er avgjørende for storskala distribusjoner.
Bring AI til Edge: Distribuering på enhet med NVIDIA-maskinvare
Ettersom AI-arbeidsflyter og agenter blir stadig mer integrerte i daglige operasjoner, er evnen til å kjøre disse modellene utenfor tradisjonelle datasentermiljøer avgjørende. NVIDIA tilbyr et omfattende økosystem av klient- og edge-systemer, fra kraftige gpus som RTX GPU-er til spesialiserte Jetson-enheter og DGX Spark, som gir utviklere fleksibiliteten som trengs for å optimalisere for kostnad, forsinkelse og sikkerhet.
NVIDIA har samarbeidet med ledende inferensrammeverk som vLLM, Ollama og llama.cpp for å sikre en optimal lokal distribusjonsopplevelse for Gemma 4-modeller. I tillegg tilbyr Unsloth dag-én-støtte med optimaliserte og kvantiserte modeller, noe som muliggjør effektiv lokal distribusjon gjennom Unsloth Studio. Dette robuste støttesystemet gir utviklere mulighet til å distribuere sofistikert AI direkte der det trengs mest.
| DGX Spark | Jetson | RTX / RTX PRO | |
|---|---|---|---|
| Bruksområde | AI-forskning og prototyping | Edge AI og robotikk | Skrivebordsapplikasjoner og Windows-utvikling |
| Viktige høydepunkter | En forhåndsinstallert NVIDIA AI-programvarestakk og 128 GB samlet minne driver lokal prototyping, finjustering og fullt lokale OpenClaw-arbeidsflyter | Nær-null forsinkelse på grunn av arkitekturfunksjoner som betinget parameterlasting og per-lag-embeddinger som kan bufres for raskere og redusert minnebruk ( mer info) | Optimalisert ytelse for lokal inferens for hobbyister, skapere og profesjonelle |
| Kom i gang-guide | DGX Spark Playbooks for vLLM, Ollama, Unsloth og llama.cpp distribusjonsguider NeMo Automodel for finjusteringsguide på Spark | Jetson AI Lab for veiledninger og tilpassede Gemma-beholdere | RTX AI Garage for Ollama og llama.cpp guider. RTX Pro-eiere kan også bruke vLLM. |
Tabell 2. Sammenligning av lokale distribusjonsalternativer på tvers av NVIDIA-plattformer, som fremhever primære bruksområder, nøkkelfunksjoner og anbefalte ressurser for å komme i gang med DGX Spark, Jetson og RTX / RTX PRO-systemer som kjører Gemma 4-modeller.
Bygger sikre agentiske arbeidsflyter og bedriftsklare distribusjoner
For AI-utviklere og entusiaster tilbyr NVIDIA DGX Spark, med GB10 Grace Blackwell Superchip og 128 GB samlet minne, uovertrufne ressurser. Denne robuste plattformen er ideell for å kjøre Gemma 4 31B-modellen med BF16-vekter, noe som muliggjør effektiv prototyping og bygging av komplekse agentiske AI-arbeidsflyter samtidig som den sikrer privat og sikker utførelse på enheten. DGX Linux OS og hele NVIDIAs programvarestakk gir et sømløst utviklingsmiljø.
vLLM-inferensmotoren, designet for LLM-serving med høy gjennomstrømning, maksimerer effektiviteten og minimerer minnebruken på DGX Spark. Denne kombinasjonen gir en høyytelsesplattform for distribusjon av de største Gemma 4-modellene. Utviklere kan utnytte vLLM for Inference DGX Spark playbook eller komme i gang med Ollama eller llama.cpp. Videre tillater NeMo Automodel finjustering av disse modellene direkte på DGX Spark.
For bedriftsbrukere tilbyr NVIDIA NIM en vei til produksjonsklar distribusjon. Utviklere kan prototype Gemma 4 31B ved å bruke en NVIDIA-hostet NIM API fra NVIDIA API-katalogen. For fullskala produksjon er ferdigpakte og optimaliserte NIM-mikrotjenester tilgjengelige for sikker, selv-hostet distribusjon, støttet av en NVIDIA Enterprise License. Dette sikrer at bedrifter kan distribuere kraftige AI-løsninger med tillit, og oppfylle strenge sikkerhets- og driftskrav.
Styrker fysiske AI-agenter med NVIDIA Jetson
Evnene til moderne fysiske AI-agenter utvikler seg raskt, hovedsakelig takket være Gemma 4-modeller som integrerer sofistikert lyd, multimodal persepsjon og dyp resonnering. Disse avanserte modellene gjør at robotsystemer kan bevege seg utover enkel oppgaveutførelse, og gir dem evnen til å forstå tale, tolke visuell kontekst og resonnere intelligent før de handler.
På NVIDIA Jetson-plattformer kan utviklere utføre Gemma 4-inferens på edge ved hjelp av llama.cpp og vLLM. Jetson Orin Nano, for eksempel, støtter Gemma 4 E2B- og E4B-variantene, noe som letter multimodal inferens på små, innebygde og strømbegrensede systemer. Denne skaleringsmuligheten strekker seg over hele Jetson-plattformen, opp til den formidable Jetson Thor, og muliggjør konsistent modelldistribusjon uavhengig av maskinvareavtrykket. Dette er avgjørende for applikasjoner innen robotikk, smarte maskiner og industriell automatisering hvor lav forsinkelse og intelligens på enheten er av største betydning. Utviklere som er interessert i å utforske disse funksjonene kan finne veiledninger og tilpassede Gemma-beholdere på Jetson AI Lab.
Tilpasning og kommersiell tilgjengelighet med NVIDIA NeMo
For å sikre at Gemma 4-modeller kan skreddersys til spesifikke applikasjoner og proprietære datasett, tilbyr NVIDIA robuste finjusteringsmuligheter gjennom NVIDIA NeMo-rammeverket. NeMo Automodel-biblioteket, spesielt, kombinerer native PyTorch's brukervennlighet med optimalisert ytelse, noe som gjør tilpasningsprosessen tilgjengelig og effektiv.
Utviklere kan utnytte teknikker som veiledet finjustering (SFT) og minneeffektiv LoRA (Low-Rank Adaptation) for å utføre dag-null finjustering. Denne prosessen starter direkte fra Gemma 4-modellens sjekkpunkter som er tilgjengelige på Hugging Face, noe som eliminerer behovet for tungvinte konverteringstrinn. Denne fleksibiliteten gjør det mulig for bedrifter og forskere å berike Gemma 4-modeller med domenespesifikk kunnskap, og sikrer høy nøyaktighet og relevans for spesialiserte oppgaver.
Gemma 4-modeller er lett tilgjengelige på tvers av hele NVIDIAs AI-plattform og tilbys under den kommersielt vennlige Apache 2.0-lisensen. Denne åpen kildekode-lisensen letter bred adopsjon og integrering i kommersielle produkter og tjenester, noe som gir utviklere over hele verden mulighet til å innovere med banebrytende AI. Fra ytelsen til Blackwell til allestedsnærværet til Jetson-plattformene, er Gemma 4 klar til å bringe avansert AI nærmere hver utvikler og hver enhet.
Opprinnelig kilde
https://developer.nvidia.com/blog/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4/Ofte stilte spørsmål
What is Gemma 4 and what are its key advancements for AI deployment?
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Hold deg oppdatert
Få de siste AI-nyhetene i innboksen din.
