Code Velocity
AI-modeller

Gemma 4: Skalerer AI fra datasenter til edge med NVIDIA

·5 min lesing·NVIDIA·Opprinnelig kilde
Del
NVIDIA Gemma 4-modeller muliggjør AI på edge-enheter og i datasentre

Landskapet innen kunstig intelligens utvikler seg raskt, med en voksende etterspørsel etter å distribuere avanserte AI-modeller ikke bare i skybaserte datasentre, men også helt ute i nettverkskanten (edge) og direkte på brukerenheter. Dette skiftet drives av behovet for lavere forsinkelse, forbedret personvern, reduserte driftskostnader og evnen til å operere i miljøer med begrenset tilkobling. For å møte disse kritiske kravene har NVIDIA og Google samarbeidet om å introdusere de nyeste Gemma 4 multimodale og flerspråklige modellene, konstruert for å skalere sømløst fra de kraftigste NVIDIA Blackwell-datasentrene ned til kompakte Jetson edge-enheter.

Disse modellene representerer et betydelig sprang i effektivitet og nøyaktighet, noe som gjør dem til allsidige verktøy for et bredt spekter av vanlige AI-oppgaver. Gemma 4-familien er klar til å redefinere hvordan AI integreres i hverdagsapplikasjoner, og tilbyr funksjoner som flytter grensene for hva som er mulig innen lokal AI-distribusjon.

Gemma 4: Fremmer multimodal og flerspråklig AI

Gemmaverse har utvidet seg med introduksjonen av fire nye Gemma 4-modeller, hver designet med spesifikke distribusjonsscenarier i tankene, samtidig som de tilbyr et robust sett med funksjoner. Disse modellene handler ikke bare om størrelse; de handler om intelligent design, som leverer sterk ytelse på tvers av ulike AI-utfordringer.

Kjernefunksjonene til Gemma 4-modellene inkluderer:

  • Resonnering: Enestående ytelse på komplekse problemløsningsoppgaver, noe som muliggjør mer sofistikert beslutningstaking.
  • Koding: Avanserte funksjoner for kodegenerering og feilsøking, som effektiviserer utviklerarbeidsflyter.
  • Agenter: Innebygd støtte for strukturert verktøybruk, som letter opprettelsen av kraftige agentiske AI-systemer.
  • Syn, lyd og videofunksjonalitet: Rike multimodale interaksjoner for brukstilfeller som objektgjenkjenning, automatisert talegjenkjenning (ASR), dokument- og videointelligens.
  • Vekslende multimodal input: Evnen til å fritt blande tekst og bilder i en enkelt prompt, noe som gir mer naturlig og omfattende interaksjon.
  • Flerspråklig støtte: Ferdig støtte for over 35 språk, med forhåndstrening på over 140 språk, noe som utvider global tilgjengelighet.

Gemma 4-familien inkluderer den første Mixture-of-Experts (MoE)-modellen i Gemma-serien, optimalisert for effektivitet. Bemerkelsesverdig nok kan alle fire modellene passe på en enkelt NVIDIA H100 GPU, noe som demonstrerer deres optimaliserte design. 31B- og 26B A4B-variantene er høyytelses resonneringsmodeller egnet for både lokale og datasentermiljøer, mens E4B- og E2B-modellene er spesifikt skreddersydd for enhets- og mobilapplikasjoner, og bygger videre på arven fra Gemma 3n.

ModellnavnArkitekturtypeTotale parametereAktive eller effektive parametereLengde på inndatakontekst (Tokens)Skyvevindu (Tokens)Modaliteter
Gemma-4-31BDense Transformer31B256K1024Text
Gemma-4-26B-A4BMoE – 128 Experts26B3.8B256KText
Gemma-4-E4BDense Transformer7.9B with embeddings4.5B effective128K512Text, Audio, Vision, Video
Gemma-4-E2BDense Transformer5.1B with embeddings2.3B effective128K512Text, Audio, Vision, Video

Tabell 1. Oversikt over Gemma 4-modellfamilien, som oppsummerer arkitekturtyper, parameterstørrelser, effektive parametere, støttede kontekstlengder og tilgjengelige modaliteter for å hjelpe utviklere med å velge riktig modell for distribusjon i datasenter, edge og på enheter.

Disse modellene er tilgjengelige på Hugging Face med BF16-sjekkpunkter. For utviklere som bruker NVIDIA Blackwell GPU-er, er et NVFP4 kvantisert sjekkpunkt for Gemma-4-31B tilgjengelig via NVIDIA Model Optimizer for bruk med vLLM. NVFP4-presisjon opprettholder nesten identisk nøyaktighet som 8-biters presisjon, samtidig som den betydelig forbedrer ytelsen per watt og senker kostnaden per token, noe som er avgjørende for storskala distribusjoner.

Bring AI til Edge: Distribuering på enhet med NVIDIA-maskinvare

Ettersom AI-arbeidsflyter og agenter blir stadig mer integrerte i daglige operasjoner, er evnen til å kjøre disse modellene utenfor tradisjonelle datasentermiljøer avgjørende. NVIDIA tilbyr et omfattende økosystem av klient- og edge-systemer, fra kraftige gpus som RTX GPU-er til spesialiserte Jetson-enheter og DGX Spark, som gir utviklere fleksibiliteten som trengs for å optimalisere for kostnad, forsinkelse og sikkerhet.

NVIDIA har samarbeidet med ledende inferensrammeverk som vLLM, Ollama og llama.cpp for å sikre en optimal lokal distribusjonsopplevelse for Gemma 4-modeller. I tillegg tilbyr Unsloth dag-én-støtte med optimaliserte og kvantiserte modeller, noe som muliggjør effektiv lokal distribusjon gjennom Unsloth Studio. Dette robuste støttesystemet gir utviklere mulighet til å distribuere sofistikert AI direkte der det trengs mest.

DGX SparkJetsonRTX / RTX PRO
BruksområdeAI-forskning og prototypingEdge AI og robotikkSkrivebordsapplikasjoner og Windows-utvikling
Viktige høydepunkterEn forhåndsinstallert NVIDIA AI-programvarestakk og 128 GB samlet minne driver lokal prototyping, finjustering og fullt lokale OpenClaw-arbeidsflyterNær-null forsinkelse på grunn av arkitekturfunksjoner som betinget parameterlasting og per-lag-embeddinger som kan bufres for raskere og redusert minnebruk ( mer info)Optimalisert ytelse for lokal inferens for hobbyister, skapere og profesjonelle
Kom i gang-guideDGX Spark Playbooks for vLLM, Ollama, Unsloth og llama.cpp distribusjonsguider
NeMo Automodel for finjusteringsguide på Spark
Jetson AI Lab for veiledninger og tilpassede Gemma-beholdereRTX AI Garage for Ollama og llama.cpp guider. RTX Pro-eiere kan også bruke vLLM.

Tabell 2. Sammenligning av lokale distribusjonsalternativer på tvers av NVIDIA-plattformer, som fremhever primære bruksområder, nøkkelfunksjoner og anbefalte ressurser for å komme i gang med DGX Spark, Jetson og RTX / RTX PRO-systemer som kjører Gemma 4-modeller.

Bygger sikre agentiske arbeidsflyter og bedriftsklare distribusjoner

For AI-utviklere og entusiaster tilbyr NVIDIA DGX Spark, med GB10 Grace Blackwell Superchip og 128 GB samlet minne, uovertrufne ressurser. Denne robuste plattformen er ideell for å kjøre Gemma 4 31B-modellen med BF16-vekter, noe som muliggjør effektiv prototyping og bygging av komplekse agentiske AI-arbeidsflyter samtidig som den sikrer privat og sikker utførelse på enheten. DGX Linux OS og hele NVIDIAs programvarestakk gir et sømløst utviklingsmiljø.

vLLM-inferensmotoren, designet for LLM-serving med høy gjennomstrømning, maksimerer effektiviteten og minimerer minnebruken på DGX Spark. Denne kombinasjonen gir en høyytelsesplattform for distribusjon av de største Gemma 4-modellene. Utviklere kan utnytte vLLM for Inference DGX Spark playbook eller komme i gang med Ollama eller llama.cpp. Videre tillater NeMo Automodel finjustering av disse modellene direkte på DGX Spark.

For bedriftsbrukere tilbyr NVIDIA NIM en vei til produksjonsklar distribusjon. Utviklere kan prototype Gemma 4 31B ved å bruke en NVIDIA-hostet NIM API fra NVIDIA API-katalogen. For fullskala produksjon er ferdigpakte og optimaliserte NIM-mikrotjenester tilgjengelige for sikker, selv-hostet distribusjon, støttet av en NVIDIA Enterprise License. Dette sikrer at bedrifter kan distribuere kraftige AI-løsninger med tillit, og oppfylle strenge sikkerhets- og driftskrav.

Styrker fysiske AI-agenter med NVIDIA Jetson

Evnene til moderne fysiske AI-agenter utvikler seg raskt, hovedsakelig takket være Gemma 4-modeller som integrerer sofistikert lyd, multimodal persepsjon og dyp resonnering. Disse avanserte modellene gjør at robotsystemer kan bevege seg utover enkel oppgaveutførelse, og gir dem evnen til å forstå tale, tolke visuell kontekst og resonnere intelligent før de handler.

På NVIDIA Jetson-plattformer kan utviklere utføre Gemma 4-inferens på edge ved hjelp av llama.cpp og vLLM. Jetson Orin Nano, for eksempel, støtter Gemma 4 E2B- og E4B-variantene, noe som letter multimodal inferens på små, innebygde og strømbegrensede systemer. Denne skaleringsmuligheten strekker seg over hele Jetson-plattformen, opp til den formidable Jetson Thor, og muliggjør konsistent modelldistribusjon uavhengig av maskinvareavtrykket. Dette er avgjørende for applikasjoner innen robotikk, smarte maskiner og industriell automatisering hvor lav forsinkelse og intelligens på enheten er av største betydning. Utviklere som er interessert i å utforske disse funksjonene kan finne veiledninger og tilpassede Gemma-beholdere på Jetson AI Lab.

Tilpasning og kommersiell tilgjengelighet med NVIDIA NeMo

For å sikre at Gemma 4-modeller kan skreddersys til spesifikke applikasjoner og proprietære datasett, tilbyr NVIDIA robuste finjusteringsmuligheter gjennom NVIDIA NeMo-rammeverket. NeMo Automodel-biblioteket, spesielt, kombinerer native PyTorch's brukervennlighet med optimalisert ytelse, noe som gjør tilpasningsprosessen tilgjengelig og effektiv.

Utviklere kan utnytte teknikker som veiledet finjustering (SFT) og minneeffektiv LoRA (Low-Rank Adaptation) for å utføre dag-null finjustering. Denne prosessen starter direkte fra Gemma 4-modellens sjekkpunkter som er tilgjengelige på Hugging Face, noe som eliminerer behovet for tungvinte konverteringstrinn. Denne fleksibiliteten gjør det mulig for bedrifter og forskere å berike Gemma 4-modeller med domenespesifikk kunnskap, og sikrer høy nøyaktighet og relevans for spesialiserte oppgaver.

Gemma 4-modeller er lett tilgjengelige på tvers av hele NVIDIAs AI-plattform og tilbys under den kommersielt vennlige Apache 2.0-lisensen. Denne åpen kildekode-lisensen letter bred adopsjon og integrering i kommersielle produkter og tjenester, noe som gir utviklere over hele verden mulighet til å innovere med banebrytende AI. Fra ytelsen til Blackwell til allestedsnærværet til Jetson-plattformene, er Gemma 4 klar til å bringe avansert AI nærmere hver utvikler og hver enhet.

Ofte stilte spørsmål

What is Gemma 4 and what are its key advancements for AI deployment?
Gemma 4 represents the latest generation of multimodal and multilingual AI models from Google, designed for broad deployment across the entire NVIDIA hardware spectrum, from powerful Blackwell data centers to compact Jetson edge devices. Its key advancements include significantly improved efficiency and accuracy, making it suitable for diverse tasks like complex problem-solving, code generation, and agent tool use. These models boast rich multimodal capabilities, supporting interleaved text and images, and are pre-trained on over 140 languages. This versatility and scalability address the growing demand for local, secure, cost-efficient, and low-latency AI applications, pushing intelligence closer to the source of data and action.
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
Gemma 4 is specifically optimized to enable robust on-device and edge AI deployments, crucial for applications requiring low latency, enhanced privacy, and reduced operational costs. NVIDIA's comprehensive suite of client and edge systems—including RTX GPUs, DGX Spark, and Jetson devices—provides the necessary flexibility and performance. For instance, Jetson platforms support Gemma 4 E2B and E4B variants for multimodal inference on power-constrained embedded systems, while RTX GPUs offer optimized performance for local inference on desktops. Collaborations with vLLM, Ollama, llama.cpp, and Unsloth ensure efficient local deployment experiences across these diverse platforms, empowering developers to integrate advanced AI directly into their applications and devices.
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
NVIDIA DGX Spark provides a powerful platform for AI developers and enthusiasts to prototype and build secure, agentic AI workflows with Gemma 4. Featuring GB10 Grace Blackwell Superchips and 128 GB of unified memory, DGX Spark enables efficient running of even the largest Gemma 4 models with BF16 weights, maintaining private and secure on-device execution. The vLLM inference engine on DGX Spark further optimizes LLM serving for high throughput. For production deployment, NVIDIA NIM offers prepackaged and optimized microservices, providing a secure, self-hosted solution for enterprises with an NVIDIA Enterprise License. A hosted NIM API is also available in the NVIDIA API catalog for initial prototyping.
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
Developers can customize Gemma 4 models with their unique domain data using the NVIDIA NeMo framework, particularly the NeMo Automodel library. This powerful tool combines the ease of use of native PyTorch with optimized performance, allowing for efficient fine-tuning. Techniques such as supervised fine-tuning (SFT) and memory-efficient LoRA (Low-Rank Adaptation) can be applied directly to Gemma 4 model checkpoints available on Hugging Face, eliminating the need for cumbersome conversions. This enables day-zero fine-tuning, ensuring models are highly relevant and accurate for specialized applications and datasets, enhancing their utility across various industry verticals.
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Gemma 4 models are made highly accessible to developers and enterprises through the commercial-friendly Apache 2.0 license. This open-source license allows for broad use, modification, and distribution of the models, facilitating their integration into various commercial products and services without restrictive licensing fees. Furthermore, NVIDIA ensures wide availability across its entire AI platform, from Blackwell data centers to Jetson edge devices. Developers can get started immediately by accessing model checkpoints on Hugging Face, utilizing NVIDIA's extensive documentation and tutorials, and leveraging tools like vLLM, Ollama, and NeMo for deployment and customization, making advanced AI readily available for innovation.

Hold deg oppdatert

Få de siste AI-nyhetene i innboksen din.

Del