Peizazhi i inteligjencës artificiale po evoluon me shpejtësi, me një kërkesë në rritje për të vendosur modele të avancuara të AI jo vetëm në qendrat e të dhënave cloud, por edhe në skajin e rrjeteve dhe drejtpërdrejt në pajisjet e përdoruesve. Ky ndryshim nxitet nga nevoja për vonesë më të ulët, privatësi të përmirësuar, kosto operacionale të reduktuara dhe aftësia për të operuar në mjedise me lidhshmëri të kufizuar. Duke adresuar këto kërkesa kritike, NVIDIA dhe Google kanë bashkëpunuar për të prezantuar modelet më të fundit multimodale dhe shumëgjuhëshe Gemma 4, të inxhinieruara për t'u shkallëzuar pa probleme nga qendrat më të fuqishme të të dhënave NVIDIA Blackwell deri te pajisjet kompakte skajore Jetson.
Këto modele përfaqësojnë një hap të rëndësishëm në efikasitet dhe saktësi, duke i bërë ato mjete të gjithanshme për një gamë të gjerë detyrash të zakonshme të AI. Familja Gemma 4 është gati të ripërcaktojë mënyrën se si AI integrohet në aplikacionet e përditshme, duke ofruar aftësi që shtyjnë kufijtë e asaj që është e mundur në vendosjen lokale të AI.
Gemma 4: Përparimi i AI Multimodale dhe Shumëgjuhëshe
Gemmaverse është zgjeruar me prezantimin e katër modeleve të reja Gemma 4, secili i projektuar me skenarë specifikë vendosjeje në mendje, duke ofruar një grup të fuqishëm aftësish. Këto modele nuk janë vetëm për madhësinë; ato janë rreth dizajnit inteligjent, duke ofruar performancë të fortë në sfida të ndryshme të AI.
Aftësitë kryesore të modeleve Gemma 4 përfshijnë:
- Arsyetimi: Performancë e jashtëzakonshme në detyra komplekse të zgjidhjes së problemeve, duke mundësuar marrjen e vendimeve më të sofistikuara.
- Kodimi: Veçori të avancuara të gjenerimit dhe korrigjimit të kodit, duke thjeshtuar flukset e punës së zhvilluesve.
- Agjentët: Mbështetje native për përdorimin e mjeteve të strukturuara, duke lehtësuar krijimin e sistemeve të fuqishme të AI agjentike.
- Aftësia e Vizionit, Audios dhe Videos: Ndërveprime të pasura multimodale për raste përdorimi si njohja e objekteve, njohja automatike e të folurit (ASR), inteligjenca e dokumenteve dhe videove.
- Hyrje Multimodale e Ndërthurur: Aftësia për të përzier lirshëm tekstin dhe imazhet brenda një kërkese të vetme, duke ofruar ndërveprim më natyral dhe gjithëpërfshirës.
- Mbështetje Shumëgjuhëshe: Mbështetje ‘out-of-the-box’ për mbi 35 gjuhë, me trajnim paraprak në më shumë se 140 gjuhë, duke zgjeruar aksesin global.
Familja Gemma 4 përfshin modelin e parë Mixture-of-Experts (MoE) në serinë Gemma, të optimizuar për efikasitet. Çuditërisht, të katër modelet mund të përshtaten në një GPU të vetme NVIDIA H100, duke demonstruar dizajnin e tyre të optimizuar. Variantet 31B dhe 26B A4B janë modele arsyetuese me performancë të lartë të përshtatshme si për mjediset lokale ashtu edhe për ato të qendrave të të dhënave, ndërsa modelet E4B dhe E2B janë të përshtatura posaçërisht për aplikacionet në pajisje dhe celulare, duke u bazuar në trashëgiminë e Gemma 3n.
| Emri i Modelit | Tipi i Arkitekturës | Parametra Totalë | Parametra Aktivë ose Efektivë | Gjatësia e Kontekstit Hyrës (Tokens) | Dritarja Rrëshqitëse (Tokens) | Modalitetet |
|---|---|---|---|---|---|---|
| Gemma-4-31B | Dense Transformer | 31B | — | 256K | 1024 | Tekst |
| Gemma-4-26B-A4B | MoE – 128 Experts | 26B | 3.8B | 256K | — | Tekst |
| Gemma-4-E4B | Dense Transformer | 7.9B me embeddings | 4.5B efektivë | 128K | 512 | Tekst, Audio, Vizion, Video |
| Gemma-4-E2B | Dense Transformer | 5.1B me embeddings | 2.3B efektivë | 128K | 512 | Tekst, Audio, Vizion, Video |
Tabela 1. Përmbledhje e familjes së modeleve Gemma 4, duke përmbledhur llojet e arkitekturës, madhësitë e parametrave, parametrat efektivë, gjatësitë e kontekstit të mbështetur dhe modalitetet e disponueshme për të ndihmuar zhvilluesit të zgjedhin modelin e duhur për vendosjet në qendrat e të dhënave, skaj dhe në pajisje.
Këto modele janë të disponueshme në Hugging Face me pika kontrolli BF16. Për zhvilluesit që shfrytëzojnë GPU-të NVIDIA Blackwell, një pikë kontrolli e kuantifikuar NVFP4 për Gemma-4-31B është e disponueshme nëpërmjet NVIDIA Model Optimizer për përdorim me vLLM. Saktësia NVFP4 ruan saktësi pothuajse identike me saktësinë 8-bit, ndërsa përmirëson ndjeshëm performancën për vat dhe ul koston për token, thelbësore për vendosjet në shkallë të gjerë.
Sjellja e AI në Skaj: Vendosja në Pajisje me Harduerin NVIDIA
Ndërsa flukset e punës dhe agjentët e AI bëhen gjithnjë e më integrale në operacionet e përditshme, aftësia për të ekzekutuar këto modele përtej mjediseve tradicionale të qendrave të të dhënave është thelbësore. NVIDIA ofron një ekosistem gjithëpërfshirës të sistemeve klientë dhe skajore, nga GPU-të e fuqishme si GPU-të RTX te pajisjet e specializuara Jetson dhe DGX Spark, duke u ofruar zhvilluesve fleksibilitetin e nevojshëm për të optimizuar për kosto, vonesë dhe siguri.
NVIDIA ka bashkëpunuar me korniza inferencash kryesore si vLLM, Ollama dhe llama.cpp për të siguruar një përvojë optimale të vendosjes lokale për modelet Gemma 4. Përveç kësaj, Unsloth ofron mbështetje 'day-one' me modele të optimizuara dhe të kuantifikuara, duke mundësuar vendosje efikase lokale nëpërmjet Unsloth Studio. Ky sistem i fuqishëm mbështetës fuqizon zhvilluesit të vendosin AI të sofistikuar drejtpërdrejt aty ku është më e nevojshme.
| DGX Spark | Jetson | RTX / RTX PRO | |
|---|---|---|---|
| Rast Përdorimi | Kërkim dhe prototipizim AI | AI në skaj dhe robotikë | Aplikacione desktopi dhe zhvillim Windows |
| Pikat Kryesore | Një grup softuerësh AI të NVIDIA-s të para-instaluar dhe 128 GB memorie e unifikuar fuqizojnë prototipizimin lokal, rregullimin e imët dhe flukset e punës plotësisht lokale OpenClaw | Vonesë pothuajse zero për shkak të veçorive të arkitekturës si ngarkimi kondicional i parametrave dhe 'embeddings' për çdo shtresë që mund të ruhen në cache për përdorim më të shpejtë dhe memorie të reduktuar ( më shumë info) | Performancë e optimizuar për inferencë lokale për hobiistët, krijuesit dhe profesionistët |
| Udhëzuesi i Fillimit | Playbook-et e DGX Spark për udhëzuesit e vendosjes vLLM, Ollama, Unsloth dhe llama.cpp NeMo Automodel për udhëzuesin e rregullimit të imët në Spark | Laboratori AI i Jetson për udhëzues dhe kontenierë Gemma të personalizuar | Garazhi AI i RTX për udhëzuesit Ollama dhe llama.cpp. Pronarët e RTX Pro mund të përdorin gjithashtu vLLM. |
Tabela 2. Krahasimi i opsioneve të vendosjes lokale nëpër platformat NVIDIA, duke theksuar rastet kryesore të përdorimit, aftësitë kryesore dhe burimet e rekomanduara për fillim për sistemet DGX Spark, Jetson dhe RTX / RTX PRO që ekzekutojnë modelet Gemma 4.
Ndërtimi i Flukseve të Punës Agjentike të Sigurta dhe Vendosjeve të Gata për Ndërmarrje
Për zhvilluesit dhe entuziastët e AI, NVIDIA DGX Spark, me Superchip-in GB10 Grace Blackwell dhe 128 GB memorie të unifikuar, ofron burime të pashembullta. Kjo platformë e fuqishme është ideale për ekzekutimin e modelit Gemma 4 31B me pesha BF16, duke mundësuar prototipizim efikas dhe ndërtimin e flukseve komplekse të punës AI agjentike duke siguruar ekzekutim privat dhe të sigurt në pajisje. Sistemi operativ DGX Linux dhe i gjithë grupi softuerik i NVIDIA-s sigurojnë një mjedis zhvillimi të pandërprerë.
Motori i inferencës vLLM, i projektuar për shërbim të LLM-ve me performancë të lartë, maksimizon efikasitetin dhe minimizon përdorimin e memories në DGX Spark. Ky kombinim siguron një platformë me performancë të lartë për vendosjen e modeleve më të mëdha Gemma 4. Zhvilluesit mund të shfrytëzojnë playbook-un vLLM për Inferencë në DGX Spark ose të fillojnë me Ollama ose llama.cpp. Për më tepër, NeMo Automodel lejon rregullimin e imët të këtyre modeleve drejtpërdrejt në DGX Spark.
Për përdoruesit e ndërmarrjeve, NVIDIA NIM ofron një rrugë drejt vendosjes së gatshme për prodhim. Zhvilluesit mund të prototipojnë Gemma 4 31B duke përdorur një API NIM të hostuar nga NVIDIA nga katalogu i API-ve të NVIDIA. Për prodhimin në shkallë të plotë, mikroshërbimet NIM të para-paketuar dhe të optimizuar janë të disponueshme për vendosje të sigurt, të vetë-hostuar, të mbështetura nga një Licencë Enterprise e NVIDIA-s. Kjo siguron që ndërmarrjet mund të vendosin zgjidhje të fuqishme AI me besim, duke përmbushur kërkesat e rrepta të sigurisë dhe operacionale.
Fuqizimi i Agjentëve Fizikë të AI me NVIDIA Jetson
Aftësitë e agjentëve modernë fizikë të AI po avancojnë me shpejtësi, kryesisht për shkak të modeleve Gemma 4 që integrojnë perceptimin e sofistikuar audio, multimodal dhe arsyetimin e thellë. Këto modele të avancuara u mundësojnë sistemeve robotike të kalojnë përtej ekzekutimit të thjeshtë të detyrave, duke u dhënë atyre aftësinë për të kuptuar të folurit, për të interpretuar kontekstin vizual dhe për të arsyetuar inteligjentisht para se të veprojnë.
Në platformat NVIDIA Jetson, zhvilluesit mund të kryejnë inferencë Gemma 4 në skaj duke përdorur llama.cpp dhe vLLM. Jetson Orin Nano, për shembull, mbështet variantet Gemma 4 E2B dhe E4B, duke lehtësuar inferencën multimodale në sisteme të vogla, të integruara dhe me kufizime energjie. Kjo aftësi shkallëzimi shtrihet në të gjithë platformën Jetson, deri te Jetson Thor i fuqishëm, duke lejuar vendosje të qëndrueshme të modelit pavarësisht nga gjurmët e harduerit. Kjo është thelbësore për aplikacionet në robotikë, makineri inteligjente dhe automatizim industrial ku performanca me vonesë të ulët dhe inteligjenca në pajisje janë thelbësore. Zhvilluesit e interesuar për të eksploruar këto aftësi mund të gjejnë udhëzues dhe kontenierë Gemma të personalizuar në Jetson AI Lab.
Personalizimi dhe Aksesueshmëria Komerciale me NVIDIA NeMo
Për të siguruar që modelet Gemma 4 mund të personalizohen për aplikacione specifike dhe grupe të dhënash pronësore, NVIDIA ofron aftësi të fuqishme rregullimi të imët përmes kornizës NVIDIA NeMo. Biblioteka NeMo Automodel, në veçanti, kombinon lehtësinë e përdorimit të PyTorch-ut vendas me performancë të optimizuar, duke e bërë procesin e personalizimit të aksesueshëm dhe efikas.
Zhvilluesit mund të shfrytëzojnë teknika si rregullimi i mbikëqyrur (SFT) dhe LoRA me efikasitet memorjeje (Low-Rank Adaptation) për të kryer rregullim të imët 'ditën zero'. Ky proces fillon drejtpërdrejt nga pikat e kontrollit të modelit Gemma 4 të disponueshme në Hugging Face, duke eliminuar nevojën për hapa konvertimi të vështirë. Kjo fleksibilitet u lejon ndërmarrjeve dhe studiuesve t'u japin modeleve Gemma 4 njohuri specifike të fushës, duke siguruar saktësi dhe rëndësi të lartë për detyra të specializuara.
Modelet Gemma 4 janë lehtësisht të disponueshme në të gjithë platformën AI të NVIDIA-s dhe ofrohen nën licencën komerciale Apache 2.0. Kjo licencë me burim të hapur lehtëson adoptimin e gjerë dhe integrimin në produkte dhe shërbime komerciale, duke fuqizuar zhvilluesit në mbarë botën për të inovuar me AI të avancuar. Nga performanca e Blackwell te universaliteti i platformave Jetson, Gemma 4 është gati të sjellë AI-në e avancuar më afër çdo zhvilluesi dhe çdo pajisjeje.
Burimi origjinal
https://developer.nvidia.com/blog/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4/Pyetjet e bëra shpesh
What is Gemma 4 and what are its key advancements for AI deployment?
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Qëndroni të përditësuar
Merrni lajmet më të fundit të AI në email.
