Code Velocity
AI modeļi

Gemma 4: AI mērogošana no datu centra līdz malas ierīcēm ar NVIDIA

·5 min lasīšana·NVIDIA·Sākotnējais avots
Dalīties
NVIDIA Gemma 4 modeļi, kas nodrošina AI malas ierīcēs un datu centros

Mākslīgā intelekta ainava strauji attīstās, un pieaug pieprasījums izvietot progresīvus AI modeļus ne tikai mākoņdatošanas datu centros, bet arī tīklu galos un tieši lietotāju ierīcēs. Šo pārmaiņu virza nepieciešamība pēc zemāka latentuma, uzlabota privātuma, samazinātām ekspluatācijas izmaksām un spējas darboties vidēs ar ierobežotu savienojamību. Reaģējot uz šīm kritiskajām prasībām, NVIDIA un Google ir sadarbojušies, lai ieviestu jaunākos Gemma 4 multimodālos un daudzvalodu modeļus, kas izstrādāti, lai nemanāmi mērogotu no jaudīgākajiem NVIDIA Blackwell datu centriem līdz kompaktām Jetson malas ierīcēm.

Šie modeļi ir ievērojams lēciens efektivitātes un precizitātes ziņā, padarot tos par daudzpusīgiem rīkiem plašam parasto AI uzdevumu klāstam. Gemma 4 saime ir gatava no jauna definēt AI integrāciju ikdienas lietojumprogrammās, piedāvājot iespējas, kas paplašina vietējās AI izvietošanas robežas.

Gemma 4: Multimodālas un daudzvalodu AI attīstība

Gemmaverse ir paplašināts ar četru jaunu Gemma 4 modeļu ieviešanu, katrs no tiem ir izstrādāts, ņemot vērā specifiskus izvietošanas scenārijus, vienlaikus piedāvājot spēcīgu iespēju kopumu. Šie modeļi nav tikai par izmēru; tie ir par inteliģentu dizainu, nodrošinot spēcīgu veiktspēju dažādās AI problēmās.

Gemma 4 modeļu pamatfunkcijas ietver:

  • Spriešana: Izcila veiktspēja sarežģītu problēmu risināšanas uzdevumos, nodrošinot sarežģītāku lēmumu pieņemšanu.
  • Kodēšana: Uzlabotas koda ģenerēšanas un atkļūdošanas funkcijas, racionalizējot izstrādātāju darbplūsmas.
  • Aģenti: Vietējais atbalsts strukturētai rīku izmantošanai, veicinot jaudīgu aģentu AI sistēmu izveidi.
  • Redzes, audio un video iespējas: Bagātīgas multimodālas mijiedarbības lietošanas gadījumiem, piemēram, objektu atpazīšanai, automātiskai runas atpazīšanai (ASR), dokumentu un video inteliģencei.
  • Jaukta multimodāla ievade: Spēja brīvi sajaukt tekstu un attēlus vienā uzvednē, piedāvājot dabiskāku un visaptverošāku mijiedarbību.
  • Daudzvalodu atbalsts: Gatavs atbalsts vairāk nekā 35 valodām, ar iepriekšēju apmācību vairāk nekā 140 valodās, paplašinot globālo pieejamību.

Gemma 4 saimē ir iekļauts pirmais Mixture-of-Experts (MoE) modelis Gemma sērijā, kas optimizēts efektivitātei. Ievērības cienīgi, ka visi četri modeļi var ietilpt vienā NVIDIA H100 GPU, demonstrējot to optimizēto dizainu. 31B un 26B A4B varianti ir augstas veiktspējas spriešanas modeļi, kas piemēroti gan vietējai, gan datu centru videi, savukārt E4B un E2B modeļi ir īpaši pielāgoti ierīču un mobilo lietojumprogrammu vajadzībām, balstoties uz Gemma 3n mantojumu.

Model NameArchitecture TypeTotal ParametersActive or Effective ParametersInput Context Length (Tokens)Sliding Window (Tokens)Modalities
Gemma-4-31BDense Transformer31B256K1024Text
Gemma-4-26B-A4BMoE – 128 Experts26B3.8B256KText
Gemma-4-E4BDense Transformer7.9B with embeddings4.5B effective128K512Text, Audio, Vision, Video
Gemma-4-E2BDense Transformer5.1B with embeddings2.3B effective128K512Text, Audio, Vision, Video

1. tabula. Pārskats par Gemma 4 modeļu saimi, kurā apkopoti arhitektūras veidi, parametru izmēri, efektīvie parametri, atbalstītie konteksta garumi un pieejamās modalitātes, lai palīdzētu izstrādātājiem izvēlēties pareizo modeli datu centru, malas un ierīču izvietošanai.

Šie modeļi ir pieejami vietnē Hugging Face ar BF16 kontrolpunktiem. Izstrādātājiem, kas izmanto NVIDIA Blackwell GPU, NVFP4 kvantētais kontrolpunkts Gemma-4-31B ir pieejams, izmantojot NVIDIA Model Optimizer, lietošanai ar vLLM. NVFP4 precizitāte saglabā gandrīz identisku precizitāti 8 bitu precizitātei, vienlaikus ievērojami uzlabojot veiktspēju uz vatu un samazinot izmaksas par marķieri, kas ir kritiski liela mēroga izvietošanai.

AI nogādāšana līdz malas ierīcēm: Izvietošana ierīcē ar NVIDIA aparatūru

Tā kā AI darbplūsmas un aģenti kļūst arvien neatņemamāki ikdienas darbībās, spēja palaist šos modeļus ārpus tradicionālās datu centru vides ir ārkārtīgi svarīga. NVIDIA piedāvā visaptverošu klientu un malas sistēmu ekosistēmu, sākot no jaudīgiem gpus kā RTX GPU līdz specializētām Jetson ierīcēm un DGX Spark, nodrošinot izstrādātājiem nepieciešamo elastību, lai optimizētu izmaksas, latentumu un drošību.

NVIDIA ir sadarbojusies ar vadošajām secināšanas sistēmām, piemēram, vLLM, Ollama un llama.cpp, lai nodrošinātu optimālu vietējās izvietošanas pieredzi Gemma 4 modeļiem. Turklāt Unsloth nodrošina atbalstu no pirmās dienas ar optimizētiem un kvantētiem modeļiem, nodrošinot efektīvu vietējo izvietošanu, izmantojot Unsloth Studio. Šī robustā atbalsta sistēma ļauj izstrādātājiem izvietot sarežģītu AI tieši tur, kur tas visvairāk nepieciešams.

DGX SparkJetsonRTX / RTX PRO
Lietošanas gadījumsAI pētījumi un prototipēšanaMalas AI un robotikaDatorprogrammas un Windows izstrāde
Galvenie akcentiIepriekš instalēta NVIDIA AI programmatūras kaudze un 128 GB apvienotās atmiņas nodrošina vietējo prototipēšanu, precizēšanu un pilnībā vietējas OpenClaw darbplūsmasGandrīz nulle latentums arhitektūras funkciju dēļ, piemēram, nosacīta parametru ielāde un slāņu iegulšana, ko var kešot ātrākai un samazinātai atmiņas izmantošanai ( vairāk informācijas)Optimizēta veiktspēja vietējai secināšanai hobijistiem, radītājiem un profesionāļiem
Darba sākšanas ceļvedisDGX Spark Playbooks vLLM, Ollama, Unsloth un llama.cpp izvietošanas ceļvežiem
NeMo Automodel precizēšanai Spark ceļvedī
Jetson AI Lab pamācībām un pielāgotiem Gemma konteineriemRTX AI Garage Ollama un llama.cpp ceļvežiem. RTX Pro īpašnieki var izmantot arī vLLM.

2. tabula. Vietējo izvietošanas iespēju salīdzinājums dažādās NVIDIA platformās, izceļot galvenos lietošanas gadījumus, būtiskākās iespējas un ieteiktos resursus DGX Spark, Jetson un RTX / RTX PRO sistēmām, kurās darbojas Gemma 4 modeļi.

Drošu aģentu darbplūsmu un uzņēmumu gatavu izvietošanu veidošana

AI izstrādātājiem un entuziastiem NVIDIA DGX Spark, kas aprīkots ar GB10 Grace Blackwell Superchip un 128 GB apvienotās atmiņas, piedāvā nepārspējamus resursus. Šī robustā platforma ir ideāli piemērota Gemma 4 31B modeļa palaišanai ar BF16 svariem, nodrošinot efektīvu sarežģītu aģentu AI darbplūsmu prototipēšanu un veidošanu, vienlaikus nodrošinot privātu un drošu izpildi ierīcē. DGX Linux OS un pilnā NVIDIA programmatūras kaudze nodrošina nevainojamu izstrādes vidi.

vLLM secināšanas dzinējs, kas paredzēts augstas caurlaidības LLM apkalpošanai, maksimāli palielina efektivitāti un samazina atmiņas lietojumu DGX Spark. Šī kombinācija nodrošina augstas veiktspējas platformu lielāko Gemma 4 modeļu izvietošanai. Izstrādātāji var izmantot vLLM for Inference DGX Spark playbook vai sākt darbu ar Ollama vai llama.cpp. Turklāt NeMo Automodel ļauj tieši precizēt šos modeļus DGX Spark.

Uzņēmumu lietotājiem NVIDIA NIM piedāvā ceļu uz ražošanai gatavu izvietošanu. Izstrādātāji var prototipēt Gemma 4 31B, izmantojot NVIDIA mitinātu NIM API no NVIDIA API katalogā. Pilna mēroga ražošanai ir pieejami iepriekš iepakoti un optimizēti NIM mikropakalpojumi drošai, pašmitinātai izvietošanai, ko atbalsta NVIDIA Enterprise Licence. Tas nodrošina, ka uzņēmumi var ar pārliecību izvietot jaudīgus AI risinājumus, atbilstot stingrām drošības un ekspluatācijas prasībām.

Fizisko AI aģentu pilnvarošana ar NVIDIA Jetson

Mūsdienu fizisko AI aģentu iespējas strauji attīstās, galvenokārt pateicoties Gemma 4 modeļiem, kas integrē sarežģītu audio, multimodālu uztveri un dziļu spriešanu. Šie progresīvie modeļi ļauj robotikas sistēmām pāriet no vienkāršas uzdevumu izpildes, piešķirot tām spēju saprast runu, interpretēt vizuālo kontekstu un saprātīgi spriest pirms rīcības.

NVIDIA Jetson platformās izstrādātāji var veikt Gemma 4 secināšanu malas ierīcēs, izmantojot llama.cpp un vLLM. Piemēram, Jetson Orin Nano atbalsta Gemma 4 E2B un E4B variantus, atvieglojot multimodālu secināšanu mazās, iegultās un jaudas ierobežotās sistēmās. Šī mērogojamības iespēja aptver visu Jetson platformu, līdz pat iespaidīgajam Jetson Thor, nodrošinot konsekventu modeļa izvietošanu neatkarīgi no aparatūras nospieduma. Tas ir izšķiroši robotikas, viedmašīnu un rūpnieciskās automatizācijas lietojumprogrammām, kurās zems latentuma līmenis un inteliģence ierīcē ir vissvarīgākie. Izstrādātāji, kas vēlas izpētīt šīs iespējas, var atrast pamācības un pielāgotus Gemma konteinerus vietnē Jetson AI Lab.

Pielāgošana un komerciālā pieejamība ar NVIDIA NeMo

Lai nodrošinātu, ka Gemma 4 modeļus var pielāgot konkrētām lietojumprogrammām un patentētām datu kopām, NVIDIA piedāvā stabilas precizēšanas iespējas, izmantojot NVIDIA NeMo framework. Īpaši NeMo Automodel bibliotēka apvieno vietējā PyTorch lietošanas ērtumu ar optimizētu veiktspēju, padarot pielāgošanas procesu pieejamu un efektīvu.

Izstrādātāji var izmantot tādas metodes kā uzraudzītā precizēšana (SFT) un atmiņu efektīva LoRA (Low-Rank Adaptation), lai veiktu "day-zero" precizēšanu. Šis process sākas tieši no Gemma 4 modeļu kontrolpunktiem, kas pieejami vietnē Hugging Face, tādējādi novēršot sarežģītas konvertēšanas nepieciešamību. Šī elastība ļauj uzņēmumiem un pētniekiem nodrošināt Gemma 4 modeļus ar domēnspecifiskām zināšanām, nodrošinot augstu precizitāti un atbilstību specializētiem uzdevumiem.

Gemma 4 modeļi ir viegli pieejami visā NVIDIA AI platformā un tiek piedāvāti saskaņā ar komerciāli draudzīgo Apache 2.0 licenci. Šī atvērtā koda licence veicina plašu pieņemšanu un integrāciju komerciālos produktos un pakalpojumos, dodot iespēju izstrādātājiem visā pasaulē ieviest jauninājumus ar progresīvu AI. No Blackwell veiktspējas līdz Jetson platformu visuresamībai, Gemma 4 ir paredzēts, lai tuvinātu progresīvu AI katram izstrādātājam un katrai ierīcei.

Bieži uzdotie jautājumi

What is Gemma 4 and what are its key advancements for AI deployment?
Gemma 4 represents the latest generation of multimodal and multilingual AI models from Google, designed for broad deployment across the entire NVIDIA hardware spectrum, from powerful Blackwell data centers to compact Jetson edge devices. Its key advancements include significantly improved efficiency and accuracy, making it suitable for diverse tasks like complex problem-solving, code generation, and agent tool use. These models boast rich multimodal capabilities, supporting interleaved text and images, and are pre-trained on over 140 languages. This versatility and scalability address the growing demand for local, secure, cost-efficient, and low-latency AI applications, pushing intelligence closer to the source of data and action.
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
Gemma 4 is specifically optimized to enable robust on-device and edge AI deployments, crucial for applications requiring low latency, enhanced privacy, and reduced operational costs. NVIDIA's comprehensive suite of client and edge systems—including RTX GPUs, DGX Spark, and Jetson devices—provides the necessary flexibility and performance. For instance, Jetson platforms support Gemma 4 E2B and E4B variants for multimodal inference on power-constrained embedded systems, while RTX GPUs offer optimized performance for local inference on desktops. Collaborations with vLLM, Ollama, llama.cpp, and Unsloth ensure efficient local deployment experiences across these diverse platforms, empowering developers to integrate advanced AI directly into their applications and devices.
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
NVIDIA DGX Spark provides a powerful platform for AI developers and enthusiasts to prototype and build secure, agentic AI workflows with Gemma 4. Featuring GB10 Grace Blackwell Superchips and 128 GB of unified memory, DGX Spark enables efficient running of even the largest Gemma 4 models with BF16 weights, maintaining private and secure on-device execution. The vLLM inference engine on DGX Spark further optimizes LLM serving for high throughput. For production deployment, NVIDIA NIM offers prepackaged and optimized microservices, providing a secure, self-hosted solution for enterprises with an NVIDIA Enterprise License. A hosted NIM API is also available in the NVIDIA API catalog for initial prototyping.
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
Developers can customize Gemma 4 models with their unique domain data using the NVIDIA NeMo framework, particularly the NeMo Automodel library. This powerful tool combines the ease of use of native PyTorch with optimized performance, allowing for efficient fine-tuning. Techniques such as supervised fine-tuning (SFT) and memory-efficient LoRA (Low-Rank Adaptation) can be applied directly to Gemma 4 model checkpoints available on Hugging Face, eliminating the need for cumbersome conversions. This enables day-zero fine-tuning, ensuring models are highly relevant and accurate for specialized applications and datasets, enhancing their utility across various industry verticals.
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Gemma 4 models are made highly accessible to developers and enterprises through the commercial-friendly Apache 2.0 license. This open-source license allows for broad use, modification, and distribution of the models, facilitating their integration into various commercial products and services without restrictive licensing fees. Furthermore, NVIDIA ensures wide availability across its entire AI platform, from Blackwell data centers to Jetson edge devices. Developers can get started immediately by accessing model checkpoints on Hugging Face, utilizing NVIDIA's extensive documentation and tutorials, and leveraging tools like vLLM, Ollama, and NeMo for deployment and customization, making advanced AI readily available for innovation.

Esiet informēti

Saņemiet jaunākās AI ziņas savā e-pastā.

Dalīties