Landskabet inden for kunstig intelligens udvikler sig hurtigt, med en voksende efterspørgsel om at implementere avancerede AI-modeller, ikke kun i cloud-datacentre, men også helt ude ved netværkets kant og direkte på brugerens enheder. Denne ændring drives af behovet for lavere latenstid, forbedret privatliv, reducerede driftsomkostninger og evnen til at operere i miljøer med begrænset forbindelse. For at imødekomme disse kritiske krav har NVIDIA og Google samarbejdet om at introducere de seneste Gemma 4 multimodale og flersprogede modeller, konstrueret til at skalere problemfrit fra de mest kraftfulde NVIDIA Blackwell-datacentre ned til kompakte Jetson edge-enheder.
Disse modeller repræsenterer et betydeligt spring i effektivitet og nøjagtighed, hvilket gør dem til alsidige værktøjer til en bred vifte af almindelige AI-opgaver. Gemma 4-familien er klar til at omdefinere, hvordan AI integreres i hverdagsapplikationer, og tilbyder funktioner, der skubber grænserne for, hvad der er muligt inden for lokal AI-implementering.
Gemma 4: Fremmer multimodal og flersproget AI
Gemmaverse er udvidet med introduktionen af fire nye Gemma 4-modeller, hver designet med specifikke implementeringsscenarier i tankerne, samtidig med at de tilbyder et robust sæt funktioner. Disse modeller handler ikke kun om størrelse; de handler om intelligent design, der leverer stærk ydeevne på tværs af forskellige AI-udfordringer.
Kernefunktioner i Gemma 4-modellerne omfatter:
- Ræsonnement: Enestående ydeevne på komplekse problemløsningsopgaver, hvilket muliggør mere sofistikeret beslutningstagning.
- Kodning: Avancerede funktioner til kodegenerering og fejlfinding, der strømliner udviklerens arbejdsgange.
- Agenter: Native understøttelse af struktureret værktøjsbrug, hvilket letter skabelsen af kraftfulde agentiske AI-systemer.
- Video-, lyd- og billedkapacitet: Rige multimodale interaktioner til brugsscenarier som objektgenkendelse, automatisk talegenkendelse (ASR), dokument- og video-intelligens.
- Flettet multimodal input: Evnen til frit at blande tekst og billeder inden for en enkelt prompt, hvilket tilbyder en mere naturlig og omfattende interaktion.
- Flersproget understøttelse: Direkte understøttelse af over 35 sprog, med forudtræning på mere end 140 sprog, hvilket udvider den globale tilgængelighed.
Gemma 4-familien inkluderer den første Mixture-of-Experts (MoE) model i Gemma-serien, optimeret til effektivitet. Bemærkelsesværdigt nok kan alle fire modeller passe på en enkelt NVIDIA H100 GPU, hvilket demonstrerer deres optimerede design. 31B- og 26B A4B-varianterne er højtydende ræsonnementmodeller, der er velegnede til både lokale miljøer og datacentermiljøer, mens E4B- og E2B-modellerne er specifikt skræddersyet til on-device- og mobile applikationer, der bygger videre på arven fra Gemma 3n.
| Model Navn | Arkitekturtype | Totale parametre | Aktive eller effektive parametre | Input kontekstlængde (tokens) | Glidende vindue (tokens) | Modaliteter |
|---|---|---|---|---|---|---|
| Gemma-4-31B | Tæt Transformer | 31B | — | 256K | 1024 | Tekst |
| Gemma-4-26B-A4B | MoE – 128 Eksperter | 26B | 3.8B | 256K | — | Tekst |
| Gemma-4-E4B | Tæt Transformer | 7.9B med indlejringer | 4.5B effektiv | 128K | 512 | Tekst, lyd, syn, video |
| Gemma-4-E2B | Tæt Transformer | 5.1B med indlejringer | 2.3B effektiv | 128K | 512 | Tekst, lyd, syn, video |
Tabel 1. Oversigt over Gemma 4-modelfamilien, der opsummerer arkitekturtyper, parameterstørrelser, effektive parametre, understøttede kontekstlængder og tilgængelige modaliteter for at hjælpe udviklere med at vælge den rigtige model til implementeringer i datacenter, edge og on-device.
Disse modeller er tilgængelige på Hugging Face med BF16 checkpoints. For udviklere, der udnytter NVIDIA Blackwell GPU'er, er et NVFP4 kvantiseret checkpoint for Gemma-4-31B tilgængeligt via NVIDIA Model Optimizer til brug med vLLM. NVFP4-præcision opretholder næsten identisk nøjagtighed med 8-bit præcision, samtidig med at ydeevne pr. watt forbedres markant og omkostninger pr. token reduceres, hvilket er kritisk for store implementeringer.
Bringer AI til the Edge: On-Device implementering med NVIDIA Hardware
Da AI-arbejdsgange og agenter bliver en stadig mere integreret del af daglige operationer, er evnen til at køre disse modeller ud over traditionelle datacentermiljøer afgørende. NVIDIA tilbyder et omfattende økosystem af klient- og edge-systemer, fra kraftfulde gpus som RTX GPU'er til specialiserede Jetson-enheder og DGX Spark, hvilket giver udviklere den fleksibilitet, der er nødvendig for at optimere omkostninger, latenstid og sikkerhed.
NVIDIA har samarbejdet med førende inferensrammeværker som vLLM, Ollama og llama.cpp for at sikre en optimal lokal implementeringsoplevelse for Gemma 4-modeller. Derudover tilbyder Unsloth dag-én understøttelse med optimerede og kvantiserede modeller, hvilket muliggør effektiv lokal implementering gennem Unsloth Studio. Dette robuste supportsystem giver udviklere mulighed for at implementere sofistikeret AI direkte der, hvor der er mest brug for det.
| DGX Spark | Jetson | RTX / RTX PRO | |
|---|---|---|---|
| Anvendelsesområde | AI-forskning og prototyping | Edge AI og robotik | Desktop-apps og Windows-udvikling |
| Vigtigste højdepunkter | En forudinstalleret NVIDIA AI-softwarestak og 128 GB samlet hukommelse driver lokal prototyping, finjustering og fuldt lokale OpenClaw-arbejdsgange | Nul latenstid på grund af arkitekturfunktioner såsom betinget parameterindlæsning og per-lag indlejringer, som kan cachelagres for hurtigere og reduceret hukommelsesbrug ( mere info) | Optimeret ydeevne for lokal inferens for hobbyister, skabere og professionelle |
| Kom godt i gang-vejledning | DGX Spark Playbooks for vLLM, Ollama, Unsloth og llama.cpp implementeringsvejledninger NeMo Automodel til finjustering på Spark-vejledning | Jetson AI Lab for tutorials og brugerdefinerede Gemma-containere | RTX AI Garage for Ollama- og llama.cpp-vejledninger. RTX Pro-ejere kan også bruge vLLM. |
Tabel 2. Sammenligning af lokale implementeringsmuligheder på tværs af NVIDIA-platforme, der fremhæver primære anvendelsesområder, nøglefunktioner og anbefalede ressourcer til at komme i gang med DGX Spark-, Jetson- og RTX/RTX PRO-systemer, der kører Gemma 4-modeller.
Bygning af sikre agentiske arbejdsgange og virksomhedsklar implementering
For AI-udviklere og -entusiaster tilbyder NVIDIA DGX Spark, med GB10 Grace Blackwell Superchip og 128 GB samlet hukommelse, uovertrufne ressourcer. Denne robuste platform er ideel til at køre Gemma 4 31B-modellen med BF16-vægte, hvilket muliggør effektiv prototyping og opbygning af komplekse agentiske AI-arbejdsgange, samtidig med at privat og sikker udførelse på enheden sikres. DGX Linux OS og den fulde NVIDIA-softwarestak giver et problemfrit udviklingsmiljø.
vLLM-inferensmotoren, designet til LLM-serving med høj gennemstrømning, maksimerer effektiviteten og minimerer hukommelsesforbruget på DGX Spark. Denne kombination giver en højtydende platform til implementering af de største Gemma 4-modeller. Udviklere kan udnytte vLLM for Inference DGX Spark playbook eller komme i gang med Ollama eller llama.cpp. Desuden gør NeMo Automodel det muligt at finjustere disse modeller direkte på DGX Spark.
For virksomhedsbrugere tilbyder NVIDIA NIM en vej til produktionsklar implementering. Udviklere kan prototype Gemma 4 31B ved hjælp af en NVIDIA-hostet NIM API fra NVIDIA API-kataloget. Til fuldskala produktion er forudpakkede og optimerede NIM-mikroservices tilgængelige for sikker, selv-hostet implementering, understøttet af en NVIDIA Enterprise License. Dette sikrer, at virksomheder med tillid kan implementere kraftfulde AI-løsninger, der opfylder strenge sikkerheds- og driftskrav.
Styrkelse af fysiske AI-agenter med NVIDIA Jetson
De moderne fysiske AI-agenters kapaciteter udvikler sig hurtigt, i høj grad på grund af Gemma 4-modeller, der integrerer sofistikeret lyd, multimodal perception og dybt ræsonnement. Disse avancerede modeller gør det muligt for robotsystemer at bevæge sig ud over simpel opgaveudførelse, idet de giver dem evnen til at forstå tale, fortolke visuel kontekst og ræsonnere intelligent, før de handler.
På NVIDIA Jetson-platforme kan udviklere udføre Gemma 4-inferens på the edge ved hjælp af llama.cpp og vLLM. Jetson Orin Nano understøtter for eksempel Gemma 4 E2B- og E4B-varianterne, hvilket letter multimodal inferens på små, indlejrede og strømbegrænsede systemer. Denne skalerbarhed strækker sig over hele Jetson-platformen, op til den formidable Jetson Thor, hvilket muliggør konsistent modelimplementering uanset hardwarens fodaftryk. Dette er afgørende for applikationer inden for robotik, smarte maskiner og industriel automation, hvor lav latenstid og on-device intelligens er altafgørende. Udviklere, der er interesserede i at udforske disse muligheder, kan finde tutorials og brugerdefinerede Gemma-containere på Jetson AI Lab.
Tilpasning og kommerciel tilgængelighed med NVIDIA NeMo
For at sikre, at Gemma 4-modeller kan skræddersyes til specifikke applikationer og proprietære datasæt, tilbyder NVIDIA robuste finjusteringsmuligheder gennem NVIDIA NeMo-rammeværket. Specielt NeMo Automodel-biblioteket kombinerer native PyTorch's brugervenlighed med optimeret ydeevne, hvilket gør tilpasningsprocessen tilgængelig og effektiv.
Udviklere kan udnytte teknikker som supervised fine-tuning (SFT) og hukommelseseffektiv LoRA (Low-Rank Adaptation) til at udføre 'day-zero' finjustering. Denne proces starter direkte fra Gemma 4-modelcheckpoints, der er tilgængelige på Hugging Face, hvilket eliminerer behovet for besværlige konverteringstrin. Denne fleksibilitet giver virksomheder og forskere mulighed for at tilføre Gemma 4-modeller domænespecifik viden, hvilket sikrer høj nøjagtighed og relevans for specialiserede opgaver.
Gemma 4-modeller er let tilgængelige på tværs af hele NVIDIA AI-platformen og tilbydes under den kommercielt venlige Apache 2.0-licens. Denne open source-licens letter bred anvendelse og integration i kommercielle produkter og tjenester, hvilket giver udviklere over hele verden mulighed for at innovere med banebrydende AI. Fra Blackwells ydeevne til Jetson-platformenes allestedsnærværelse er Gemma 4 sat til at bringe avanceret AI tættere på enhver udvikler og enhver enhed.
Original kilde
https://developer.nvidia.com/blog/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4/Ofte stillede spørgsmål
What is Gemma 4 and what are its key advancements for AI deployment?
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Hold dig opdateret
Få de seneste AI-nyheder i din indbakke.
