Mākslīgā intelekta ainava strauji attīstās, un pieaug pieprasījums izvietot progresīvus AI modeļus ne tikai mākoņdatošanas datu centros, bet arī tīklu galos un tieši lietotāju ierīcēs. Šo pārmaiņu virza nepieciešamība pēc zemāka latentuma, uzlabota privātuma, samazinātām ekspluatācijas izmaksām un spējas darboties vidēs ar ierobežotu savienojamību. Reaģējot uz šīm kritiskajām prasībām, NVIDIA un Google ir sadarbojušies, lai ieviestu jaunākos Gemma 4 multimodālos un daudzvalodu modeļus, kas izstrādāti, lai nemanāmi mērogotu no jaudīgākajiem NVIDIA Blackwell datu centriem līdz kompaktām Jetson malas ierīcēm.
Šie modeļi ir ievērojams lēciens efektivitātes un precizitātes ziņā, padarot tos par daudzpusīgiem rīkiem plašam parasto AI uzdevumu klāstam. Gemma 4 saime ir gatava no jauna definēt AI integrāciju ikdienas lietojumprogrammās, piedāvājot iespējas, kas paplašina vietējās AI izvietošanas robežas.
Gemma 4: Multimodālas un daudzvalodu AI attīstība
Gemmaverse ir paplašināts ar četru jaunu Gemma 4 modeļu ieviešanu, katrs no tiem ir izstrādāts, ņemot vērā specifiskus izvietošanas scenārijus, vienlaikus piedāvājot spēcīgu iespēju kopumu. Šie modeļi nav tikai par izmēru; tie ir par inteliģentu dizainu, nodrošinot spēcīgu veiktspēju dažādās AI problēmās.
Gemma 4 modeļu pamatfunkcijas ietver:
- Spriešana: Izcila veiktspēja sarežģītu problēmu risināšanas uzdevumos, nodrošinot sarežģītāku lēmumu pieņemšanu.
- Kodēšana: Uzlabotas koda ģenerēšanas un atkļūdošanas funkcijas, racionalizējot izstrādātāju darbplūsmas.
- Aģenti: Vietējais atbalsts strukturētai rīku izmantošanai, veicinot jaudīgu aģentu AI sistēmu izveidi.
- Redzes, audio un video iespējas: Bagātīgas multimodālas mijiedarbības lietošanas gadījumiem, piemēram, objektu atpazīšanai, automātiskai runas atpazīšanai (ASR), dokumentu un video inteliģencei.
- Jaukta multimodāla ievade: Spēja brīvi sajaukt tekstu un attēlus vienā uzvednē, piedāvājot dabiskāku un visaptverošāku mijiedarbību.
- Daudzvalodu atbalsts: Gatavs atbalsts vairāk nekā 35 valodām, ar iepriekšēju apmācību vairāk nekā 140 valodās, paplašinot globālo pieejamību.
Gemma 4 saimē ir iekļauts pirmais Mixture-of-Experts (MoE) modelis Gemma sērijā, kas optimizēts efektivitātei. Ievērības cienīgi, ka visi četri modeļi var ietilpt vienā NVIDIA H100 GPU, demonstrējot to optimizēto dizainu. 31B un 26B A4B varianti ir augstas veiktspējas spriešanas modeļi, kas piemēroti gan vietējai, gan datu centru videi, savukārt E4B un E2B modeļi ir īpaši pielāgoti ierīču un mobilo lietojumprogrammu vajadzībām, balstoties uz Gemma 3n mantojumu.
| Model Name | Architecture Type | Total Parameters | Active or Effective Parameters | Input Context Length (Tokens) | Sliding Window (Tokens) | Modalities |
|---|---|---|---|---|---|---|
| Gemma-4-31B | Dense Transformer | 31B | — | 256K | 1024 | Text |
| Gemma-4-26B-A4B | MoE – 128 Experts | 26B | 3.8B | 256K | — | Text |
| Gemma-4-E4B | Dense Transformer | 7.9B with embeddings | 4.5B effective | 128K | 512 | Text, Audio, Vision, Video |
| Gemma-4-E2B | Dense Transformer | 5.1B with embeddings | 2.3B effective | 128K | 512 | Text, Audio, Vision, Video |
1. tabula. Pārskats par Gemma 4 modeļu saimi, kurā apkopoti arhitektūras veidi, parametru izmēri, efektīvie parametri, atbalstītie konteksta garumi un pieejamās modalitātes, lai palīdzētu izstrādātājiem izvēlēties pareizo modeli datu centru, malas un ierīču izvietošanai.
Šie modeļi ir pieejami vietnē Hugging Face ar BF16 kontrolpunktiem. Izstrādātājiem, kas izmanto NVIDIA Blackwell GPU, NVFP4 kvantētais kontrolpunkts Gemma-4-31B ir pieejams, izmantojot NVIDIA Model Optimizer, lietošanai ar vLLM. NVFP4 precizitāte saglabā gandrīz identisku precizitāti 8 bitu precizitātei, vienlaikus ievērojami uzlabojot veiktspēju uz vatu un samazinot izmaksas par marķieri, kas ir kritiski liela mēroga izvietošanai.
AI nogādāšana līdz malas ierīcēm: Izvietošana ierīcē ar NVIDIA aparatūru
Tā kā AI darbplūsmas un aģenti kļūst arvien neatņemamāki ikdienas darbībās, spēja palaist šos modeļus ārpus tradicionālās datu centru vides ir ārkārtīgi svarīga. NVIDIA piedāvā visaptverošu klientu un malas sistēmu ekosistēmu, sākot no jaudīgiem gpus kā RTX GPU līdz specializētām Jetson ierīcēm un DGX Spark, nodrošinot izstrādātājiem nepieciešamo elastību, lai optimizētu izmaksas, latentumu un drošību.
NVIDIA ir sadarbojusies ar vadošajām secināšanas sistēmām, piemēram, vLLM, Ollama un llama.cpp, lai nodrošinātu optimālu vietējās izvietošanas pieredzi Gemma 4 modeļiem. Turklāt Unsloth nodrošina atbalstu no pirmās dienas ar optimizētiem un kvantētiem modeļiem, nodrošinot efektīvu vietējo izvietošanu, izmantojot Unsloth Studio. Šī robustā atbalsta sistēma ļauj izstrādātājiem izvietot sarežģītu AI tieši tur, kur tas visvairāk nepieciešams.
| DGX Spark | Jetson | RTX / RTX PRO | |
|---|---|---|---|
| Lietošanas gadījums | AI pētījumi un prototipēšana | Malas AI un robotika | Datorprogrammas un Windows izstrāde |
| Galvenie akcenti | Iepriekš instalēta NVIDIA AI programmatūras kaudze un 128 GB apvienotās atmiņas nodrošina vietējo prototipēšanu, precizēšanu un pilnībā vietējas OpenClaw darbplūsmas | Gandrīz nulle latentums arhitektūras funkciju dēļ, piemēram, nosacīta parametru ielāde un slāņu iegulšana, ko var kešot ātrākai un samazinātai atmiņas izmantošanai ( vairāk informācijas) | Optimizēta veiktspēja vietējai secināšanai hobijistiem, radītājiem un profesionāļiem |
| Darba sākšanas ceļvedis | DGX Spark Playbooks vLLM, Ollama, Unsloth un llama.cpp izvietošanas ceļvežiem NeMo Automodel precizēšanai Spark ceļvedī | Jetson AI Lab pamācībām un pielāgotiem Gemma konteineriem | RTX AI Garage Ollama un llama.cpp ceļvežiem. RTX Pro īpašnieki var izmantot arī vLLM. |
2. tabula. Vietējo izvietošanas iespēju salīdzinājums dažādās NVIDIA platformās, izceļot galvenos lietošanas gadījumus, būtiskākās iespējas un ieteiktos resursus DGX Spark, Jetson un RTX / RTX PRO sistēmām, kurās darbojas Gemma 4 modeļi.
Drošu aģentu darbplūsmu un uzņēmumu gatavu izvietošanu veidošana
AI izstrādātājiem un entuziastiem NVIDIA DGX Spark, kas aprīkots ar GB10 Grace Blackwell Superchip un 128 GB apvienotās atmiņas, piedāvā nepārspējamus resursus. Šī robustā platforma ir ideāli piemērota Gemma 4 31B modeļa palaišanai ar BF16 svariem, nodrošinot efektīvu sarežģītu aģentu AI darbplūsmu prototipēšanu un veidošanu, vienlaikus nodrošinot privātu un drošu izpildi ierīcē. DGX Linux OS un pilnā NVIDIA programmatūras kaudze nodrošina nevainojamu izstrādes vidi.
vLLM secināšanas dzinējs, kas paredzēts augstas caurlaidības LLM apkalpošanai, maksimāli palielina efektivitāti un samazina atmiņas lietojumu DGX Spark. Šī kombinācija nodrošina augstas veiktspējas platformu lielāko Gemma 4 modeļu izvietošanai. Izstrādātāji var izmantot vLLM for Inference DGX Spark playbook vai sākt darbu ar Ollama vai llama.cpp. Turklāt NeMo Automodel ļauj tieši precizēt šos modeļus DGX Spark.
Uzņēmumu lietotājiem NVIDIA NIM piedāvā ceļu uz ražošanai gatavu izvietošanu. Izstrādātāji var prototipēt Gemma 4 31B, izmantojot NVIDIA mitinātu NIM API no NVIDIA API katalogā. Pilna mēroga ražošanai ir pieejami iepriekš iepakoti un optimizēti NIM mikropakalpojumi drošai, pašmitinātai izvietošanai, ko atbalsta NVIDIA Enterprise Licence. Tas nodrošina, ka uzņēmumi var ar pārliecību izvietot jaudīgus AI risinājumus, atbilstot stingrām drošības un ekspluatācijas prasībām.
Fizisko AI aģentu pilnvarošana ar NVIDIA Jetson
Mūsdienu fizisko AI aģentu iespējas strauji attīstās, galvenokārt pateicoties Gemma 4 modeļiem, kas integrē sarežģītu audio, multimodālu uztveri un dziļu spriešanu. Šie progresīvie modeļi ļauj robotikas sistēmām pāriet no vienkāršas uzdevumu izpildes, piešķirot tām spēju saprast runu, interpretēt vizuālo kontekstu un saprātīgi spriest pirms rīcības.
NVIDIA Jetson platformās izstrādātāji var veikt Gemma 4 secināšanu malas ierīcēs, izmantojot llama.cpp un vLLM. Piemēram, Jetson Orin Nano atbalsta Gemma 4 E2B un E4B variantus, atvieglojot multimodālu secināšanu mazās, iegultās un jaudas ierobežotās sistēmās. Šī mērogojamības iespēja aptver visu Jetson platformu, līdz pat iespaidīgajam Jetson Thor, nodrošinot konsekventu modeļa izvietošanu neatkarīgi no aparatūras nospieduma. Tas ir izšķiroši robotikas, viedmašīnu un rūpnieciskās automatizācijas lietojumprogrammām, kurās zems latentuma līmenis un inteliģence ierīcē ir vissvarīgākie. Izstrādātāji, kas vēlas izpētīt šīs iespējas, var atrast pamācības un pielāgotus Gemma konteinerus vietnē Jetson AI Lab.
Pielāgošana un komerciālā pieejamība ar NVIDIA NeMo
Lai nodrošinātu, ka Gemma 4 modeļus var pielāgot konkrētām lietojumprogrammām un patentētām datu kopām, NVIDIA piedāvā stabilas precizēšanas iespējas, izmantojot NVIDIA NeMo framework. Īpaši NeMo Automodel bibliotēka apvieno vietējā PyTorch lietošanas ērtumu ar optimizētu veiktspēju, padarot pielāgošanas procesu pieejamu un efektīvu.
Izstrādātāji var izmantot tādas metodes kā uzraudzītā precizēšana (SFT) un atmiņu efektīva LoRA (Low-Rank Adaptation), lai veiktu "day-zero" precizēšanu. Šis process sākas tieši no Gemma 4 modeļu kontrolpunktiem, kas pieejami vietnē Hugging Face, tādējādi novēršot sarežģītas konvertēšanas nepieciešamību. Šī elastība ļauj uzņēmumiem un pētniekiem nodrošināt Gemma 4 modeļus ar domēnspecifiskām zināšanām, nodrošinot augstu precizitāti un atbilstību specializētiem uzdevumiem.
Gemma 4 modeļi ir viegli pieejami visā NVIDIA AI platformā un tiek piedāvāti saskaņā ar komerciāli draudzīgo Apache 2.0 licenci. Šī atvērtā koda licence veicina plašu pieņemšanu un integrāciju komerciālos produktos un pakalpojumos, dodot iespēju izstrādātājiem visā pasaulē ieviest jauninājumus ar progresīvu AI. No Blackwell veiktspējas līdz Jetson platformu visuresamībai, Gemma 4 ir paredzēts, lai tuvinātu progresīvu AI katram izstrādātājam un katrai ierīcei.
Sākotnējais avots
https://developer.nvidia.com/blog/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4/Bieži uzdotie jautājumi
What is Gemma 4 and what are its key advancements for AI deployment?
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Esiet informēti
Saņemiet jaunākās AI ziņas savā e-pastā.
