Code Velocity
AI-modeller

Gemma 4: Skalerer AI fra datacenter til edge med NVIDIA

·5 min læsning·NVIDIA·Original kilde
Del
NVIDIA Gemma 4-modeller, der muliggør AI på edge-enheder og datacentre

Landskabet inden for kunstig intelligens udvikler sig hurtigt, med en voksende efterspørgsel om at implementere avancerede AI-modeller, ikke kun i cloud-datacentre, men også helt ude ved netværkets kant og direkte på brugerens enheder. Denne ændring drives af behovet for lavere latenstid, forbedret privatliv, reducerede driftsomkostninger og evnen til at operere i miljøer med begrænset forbindelse. For at imødekomme disse kritiske krav har NVIDIA og Google samarbejdet om at introducere de seneste Gemma 4 multimodale og flersprogede modeller, konstrueret til at skalere problemfrit fra de mest kraftfulde NVIDIA Blackwell-datacentre ned til kompakte Jetson edge-enheder.

Disse modeller repræsenterer et betydeligt spring i effektivitet og nøjagtighed, hvilket gør dem til alsidige værktøjer til en bred vifte af almindelige AI-opgaver. Gemma 4-familien er klar til at omdefinere, hvordan AI integreres i hverdagsapplikationer, og tilbyder funktioner, der skubber grænserne for, hvad der er muligt inden for lokal AI-implementering.

Gemma 4: Fremmer multimodal og flersproget AI

Gemmaverse er udvidet med introduktionen af fire nye Gemma 4-modeller, hver designet med specifikke implementeringsscenarier i tankerne, samtidig med at de tilbyder et robust sæt funktioner. Disse modeller handler ikke kun om størrelse; de handler om intelligent design, der leverer stærk ydeevne på tværs af forskellige AI-udfordringer.

Kernefunktioner i Gemma 4-modellerne omfatter:

  • Ræsonnement: Enestående ydeevne på komplekse problemløsningsopgaver, hvilket muliggør mere sofistikeret beslutningstagning.
  • Kodning: Avancerede funktioner til kodegenerering og fejlfinding, der strømliner udviklerens arbejdsgange.
  • Agenter: Native understøttelse af struktureret værktøjsbrug, hvilket letter skabelsen af kraftfulde agentiske AI-systemer.
  • Video-, lyd- og billedkapacitet: Rige multimodale interaktioner til brugsscenarier som objektgenkendelse, automatisk talegenkendelse (ASR), dokument- og video-intelligens.
  • Flettet multimodal input: Evnen til frit at blande tekst og billeder inden for en enkelt prompt, hvilket tilbyder en mere naturlig og omfattende interaktion.
  • Flersproget understøttelse: Direkte understøttelse af over 35 sprog, med forudtræning på mere end 140 sprog, hvilket udvider den globale tilgængelighed.

Gemma 4-familien inkluderer den første Mixture-of-Experts (MoE) model i Gemma-serien, optimeret til effektivitet. Bemærkelsesværdigt nok kan alle fire modeller passe på en enkelt NVIDIA H100 GPU, hvilket demonstrerer deres optimerede design. 31B- og 26B A4B-varianterne er højtydende ræsonnementmodeller, der er velegnede til både lokale miljøer og datacentermiljøer, mens E4B- og E2B-modellerne er specifikt skræddersyet til on-device- og mobile applikationer, der bygger videre på arven fra Gemma 3n.

Model NavnArkitekturtypeTotale parametreAktive eller effektive parametreInput kontekstlængde (tokens)Glidende vindue (tokens)Modaliteter
Gemma-4-31BTæt Transformer31B256K1024Tekst
Gemma-4-26B-A4BMoE – 128 Eksperter26B3.8B256KTekst
Gemma-4-E4BTæt Transformer7.9B med indlejringer4.5B effektiv128K512Tekst, lyd, syn, video
Gemma-4-E2BTæt Transformer5.1B med indlejringer2.3B effektiv128K512Tekst, lyd, syn, video

Tabel 1. Oversigt over Gemma 4-modelfamilien, der opsummerer arkitekturtyper, parameterstørrelser, effektive parametre, understøttede kontekstlængder og tilgængelige modaliteter for at hjælpe udviklere med at vælge den rigtige model til implementeringer i datacenter, edge og on-device.

Disse modeller er tilgængelige på Hugging Face med BF16 checkpoints. For udviklere, der udnytter NVIDIA Blackwell GPU'er, er et NVFP4 kvantiseret checkpoint for Gemma-4-31B tilgængeligt via NVIDIA Model Optimizer til brug med vLLM. NVFP4-præcision opretholder næsten identisk nøjagtighed med 8-bit præcision, samtidig med at ydeevne pr. watt forbedres markant og omkostninger pr. token reduceres, hvilket er kritisk for store implementeringer.

Bringer AI til the Edge: On-Device implementering med NVIDIA Hardware

Da AI-arbejdsgange og agenter bliver en stadig mere integreret del af daglige operationer, er evnen til at køre disse modeller ud over traditionelle datacentermiljøer afgørende. NVIDIA tilbyder et omfattende økosystem af klient- og edge-systemer, fra kraftfulde gpus som RTX GPU'er til specialiserede Jetson-enheder og DGX Spark, hvilket giver udviklere den fleksibilitet, der er nødvendig for at optimere omkostninger, latenstid og sikkerhed.

NVIDIA har samarbejdet med førende inferensrammeværker som vLLM, Ollama og llama.cpp for at sikre en optimal lokal implementeringsoplevelse for Gemma 4-modeller. Derudover tilbyder Unsloth dag-én understøttelse med optimerede og kvantiserede modeller, hvilket muliggør effektiv lokal implementering gennem Unsloth Studio. Dette robuste supportsystem giver udviklere mulighed for at implementere sofistikeret AI direkte der, hvor der er mest brug for det.

DGX SparkJetsonRTX / RTX PRO
AnvendelsesområdeAI-forskning og prototypingEdge AI og robotikDesktop-apps og Windows-udvikling
Vigtigste højdepunkterEn forudinstalleret NVIDIA AI-softwarestak og 128 GB samlet hukommelse driver lokal prototyping, finjustering og fuldt lokale OpenClaw-arbejdsgangeNul latenstid på grund af arkitekturfunktioner såsom betinget parameterindlæsning og per-lag indlejringer, som kan cachelagres for hurtigere og reduceret hukommelsesbrug ( mere info)Optimeret ydeevne for lokal inferens for hobbyister, skabere og professionelle
Kom godt i gang-vejledningDGX Spark Playbooks for vLLM, Ollama, Unsloth og llama.cpp implementeringsvejledninger
NeMo Automodel til finjustering på Spark-vejledning
Jetson AI Lab for tutorials og brugerdefinerede Gemma-containereRTX AI Garage for Ollama- og llama.cpp-vejledninger. RTX Pro-ejere kan også bruge vLLM.

Tabel 2. Sammenligning af lokale implementeringsmuligheder på tværs af NVIDIA-platforme, der fremhæver primære anvendelsesområder, nøglefunktioner og anbefalede ressourcer til at komme i gang med DGX Spark-, Jetson- og RTX/RTX PRO-systemer, der kører Gemma 4-modeller.

Bygning af sikre agentiske arbejdsgange og virksomhedsklar implementering

For AI-udviklere og -entusiaster tilbyder NVIDIA DGX Spark, med GB10 Grace Blackwell Superchip og 128 GB samlet hukommelse, uovertrufne ressourcer. Denne robuste platform er ideel til at køre Gemma 4 31B-modellen med BF16-vægte, hvilket muliggør effektiv prototyping og opbygning af komplekse agentiske AI-arbejdsgange, samtidig med at privat og sikker udførelse på enheden sikres. DGX Linux OS og den fulde NVIDIA-softwarestak giver et problemfrit udviklingsmiljø.

vLLM-inferensmotoren, designet til LLM-serving med høj gennemstrømning, maksimerer effektiviteten og minimerer hukommelsesforbruget på DGX Spark. Denne kombination giver en højtydende platform til implementering af de største Gemma 4-modeller. Udviklere kan udnytte vLLM for Inference DGX Spark playbook eller komme i gang med Ollama eller llama.cpp. Desuden gør NeMo Automodel det muligt at finjustere disse modeller direkte på DGX Spark.

For virksomhedsbrugere tilbyder NVIDIA NIM en vej til produktionsklar implementering. Udviklere kan prototype Gemma 4 31B ved hjælp af en NVIDIA-hostet NIM API fra NVIDIA API-kataloget. Til fuldskala produktion er forudpakkede og optimerede NIM-mikroservices tilgængelige for sikker, selv-hostet implementering, understøttet af en NVIDIA Enterprise License. Dette sikrer, at virksomheder med tillid kan implementere kraftfulde AI-løsninger, der opfylder strenge sikkerheds- og driftskrav.

Styrkelse af fysiske AI-agenter med NVIDIA Jetson

De moderne fysiske AI-agenters kapaciteter udvikler sig hurtigt, i høj grad på grund af Gemma 4-modeller, der integrerer sofistikeret lyd, multimodal perception og dybt ræsonnement. Disse avancerede modeller gør det muligt for robotsystemer at bevæge sig ud over simpel opgaveudførelse, idet de giver dem evnen til at forstå tale, fortolke visuel kontekst og ræsonnere intelligent, før de handler.

På NVIDIA Jetson-platforme kan udviklere udføre Gemma 4-inferens på the edge ved hjælp af llama.cpp og vLLM. Jetson Orin Nano understøtter for eksempel Gemma 4 E2B- og E4B-varianterne, hvilket letter multimodal inferens på små, indlejrede og strømbegrænsede systemer. Denne skalerbarhed strækker sig over hele Jetson-platformen, op til den formidable Jetson Thor, hvilket muliggør konsistent modelimplementering uanset hardwarens fodaftryk. Dette er afgørende for applikationer inden for robotik, smarte maskiner og industriel automation, hvor lav latenstid og on-device intelligens er altafgørende. Udviklere, der er interesserede i at udforske disse muligheder, kan finde tutorials og brugerdefinerede Gemma-containere på Jetson AI Lab.

Tilpasning og kommerciel tilgængelighed med NVIDIA NeMo

For at sikre, at Gemma 4-modeller kan skræddersyes til specifikke applikationer og proprietære datasæt, tilbyder NVIDIA robuste finjusteringsmuligheder gennem NVIDIA NeMo-rammeværket. Specielt NeMo Automodel-biblioteket kombinerer native PyTorch's brugervenlighed med optimeret ydeevne, hvilket gør tilpasningsprocessen tilgængelig og effektiv.

Udviklere kan udnytte teknikker som supervised fine-tuning (SFT) og hukommelseseffektiv LoRA (Low-Rank Adaptation) til at udføre 'day-zero' finjustering. Denne proces starter direkte fra Gemma 4-modelcheckpoints, der er tilgængelige på Hugging Face, hvilket eliminerer behovet for besværlige konverteringstrin. Denne fleksibilitet giver virksomheder og forskere mulighed for at tilføre Gemma 4-modeller domænespecifik viden, hvilket sikrer høj nøjagtighed og relevans for specialiserede opgaver.

Gemma 4-modeller er let tilgængelige på tværs af hele NVIDIA AI-platformen og tilbydes under den kommercielt venlige Apache 2.0-licens. Denne open source-licens letter bred anvendelse og integration i kommercielle produkter og tjenester, hvilket giver udviklere over hele verden mulighed for at innovere med banebrydende AI. Fra Blackwells ydeevne til Jetson-platformenes allestedsnærværelse er Gemma 4 sat til at bringe avanceret AI tættere på enhver udvikler og enhver enhed.

Ofte stillede spørgsmål

What is Gemma 4 and what are its key advancements for AI deployment?
Gemma 4 represents the latest generation of multimodal and multilingual AI models from Google, designed for broad deployment across the entire NVIDIA hardware spectrum, from powerful Blackwell data centers to compact Jetson edge devices. Its key advancements include significantly improved efficiency and accuracy, making it suitable for diverse tasks like complex problem-solving, code generation, and agent tool use. These models boast rich multimodal capabilities, supporting interleaved text and images, and are pre-trained on over 140 languages. This versatility and scalability address the growing demand for local, secure, cost-efficient, and low-latency AI applications, pushing intelligence closer to the source of data and action.
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
Gemma 4 is specifically optimized to enable robust on-device and edge AI deployments, crucial for applications requiring low latency, enhanced privacy, and reduced operational costs. NVIDIA's comprehensive suite of client and edge systems—including RTX GPUs, DGX Spark, and Jetson devices—provides the necessary flexibility and performance. For instance, Jetson platforms support Gemma 4 E2B and E4B variants for multimodal inference on power-constrained embedded systems, while RTX GPUs offer optimized performance for local inference on desktops. Collaborations with vLLM, Ollama, llama.cpp, and Unsloth ensure efficient local deployment experiences across these diverse platforms, empowering developers to integrate advanced AI directly into their applications and devices.
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
NVIDIA DGX Spark provides a powerful platform for AI developers and enthusiasts to prototype and build secure, agentic AI workflows with Gemma 4. Featuring GB10 Grace Blackwell Superchips and 128 GB of unified memory, DGX Spark enables efficient running of even the largest Gemma 4 models with BF16 weights, maintaining private and secure on-device execution. The vLLM inference engine on DGX Spark further optimizes LLM serving for high throughput. For production deployment, NVIDIA NIM offers prepackaged and optimized microservices, providing a secure, self-hosted solution for enterprises with an NVIDIA Enterprise License. A hosted NIM API is also available in the NVIDIA API catalog for initial prototyping.
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
Developers can customize Gemma 4 models with their unique domain data using the NVIDIA NeMo framework, particularly the NeMo Automodel library. This powerful tool combines the ease of use of native PyTorch with optimized performance, allowing for efficient fine-tuning. Techniques such as supervised fine-tuning (SFT) and memory-efficient LoRA (Low-Rank Adaptation) can be applied directly to Gemma 4 model checkpoints available on Hugging Face, eliminating the need for cumbersome conversions. This enables day-zero fine-tuning, ensuring models are highly relevant and accurate for specialized applications and datasets, enhancing their utility across various industry verticals.
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Gemma 4 models are made highly accessible to developers and enterprises through the commercial-friendly Apache 2.0 license. This open-source license allows for broad use, modification, and distribution of the models, facilitating their integration into various commercial products and services without restrictive licensing fees. Furthermore, NVIDIA ensures wide availability across its entire AI platform, from Blackwell data centers to Jetson edge devices. Developers can get started immediately by accessing model checkpoints on Hugging Face, utilizing NVIDIA's extensive documentation and tutorials, and leveraging tools like vLLM, Ollama, and NeMo for deployment and customization, making advanced AI readily available for innovation.

Hold dig opdateret

Få de seneste AI-nyheder i din indbakke.

Del