Tehisintellekti maastik areneb kiiresti, kasvab nõudlus arenenud AI-mudelite juurutamiseks mitte ainult pilvandmekeskustes, vaid ka võrkude äärealadel ja otse kasutajaseadmetes. Seda muutust ajendab vajadus madalama latentsusaja, suurema privaatsuse, vähendatud tegevuskulude ja võime järele töötada piiratud ühenduvusega keskkondades. Nende kriitiliste nõuete täitmiseks on NVIDIA ja Google teinud koostööd, et tutvustada uusimaid Gemma 4 multimodaalseid ja mitmekeelseid mudeleid, mis on loodud sujuvaks skaleerimiseks kõige võimsamatest NVIDIA Blackwelli andmekeskustest kuni kompaktsete Jetsoni ääreseadmeteni.
Need mudelid esindavad märkimisväärset edasiminekut tõhususes ja täpsuses, muutes need mitmekülgseteks tööriistadeks paljude tavaliste AI-ülesannete jaoks. Gemma 4 perekond on valmis ümber defineerima, kuidas AI integreeritakse igapäevastesse rakendustesse, pakkudes võimalusi, mis nihutavad kohaliku AI juurutamise piire.
Gemma 4: Multimodaalse ja mitmekeelse AI edendamine
Gemmaverse on laienenud nelja uue Gemma 4 mudeli tutvustamisega, millest igaüks on loodud konkreetseid juurutusstsenaariume silmas pidades, pakkudes samal ajal tugevat võimekust. Need mudelid ei puuduta ainult suurust; need puudutavad intelligentset disaini, pakkudes tugevat jõudlust erinevates AI-väljakutsetes.
Gemma 4 mudelite põhivõimalused hõlmavad:
- Arutlemine: erakordne jõudlus keeruliste probleemide lahendamisel, võimaldades keerukamat otsuste tegemist.
- Koodimine: täiustatud koodi genereerimise ja silumise funktsioonid, mis lihtsustavad arendajate töövooge.
- Agendid: natiivne tugi struktureeritud tööriistade kasutamisele, hõlbustades võimsate agentlike AI-süsteemide loomist.
- Nägemis-, heli- ja videovõimekus: rikkalikud multimodaalsed interaktsioonid kasutusjuhtudel nagu objektituvastus, automaatne kõnetuvastus (ASR), dokumendi- ja videointelligentsus.
- Põimitud multimodaalne sisend: võimalus vabalt segada teksti ja pilte ühes päringus, pakkudes loomulikumat ja põhjalikumat interaktsiooni.
- Mitmekeelne tugi: valmis tugi enam kui 35 keelele, eelkoolitusega üle 140 keeles, laiendades ülemaailmset ligipääsetavust.
Gemma 4 perekond hõlmab Gemma sarja esimest ekspertide segamise (MoE) mudelit, mis on optimeeritud tõhususe tagamiseks. Märkimisväärne on, et kõik neli mudelit mahuvad ühele NVIDIA H100 GPU-le, demonstreerides nende optimeeritud disaini. 31B ja 26B A4B variandid on suure jõudlusega arutlusmudelid, mis sobivad nii kohalikeks kui ka andmekeskuse keskkondadeks, samas kui E4B ja E2B mudelid on spetsiaalselt kohandatud seadmesisestele ja mobiilirakendustele, tuginedes Gemma 3n pärandile.
| Mudeli Nimi | Arhitektuuri Tüüp | Parameetrite Koguarv | Aktiivsed või Efektiivsed Parameetrid | Sisendkonteksti Pikkus (Tokenid) | Liugaken (Tokenid) | Modaalid |
|---|---|---|---|---|---|---|
| Gemma-4-31B | Dense Transformer | 31B | — | 256K | 1024 | Tekst |
| Gemma-4-26B-A4B | MoE – 128 Experts | 26B | 3.8B | 256K | — | Tekst |
| Gemma-4-E4B | Dense Transformer | 7.9B with embeddings | 4.5B effective | 128K | 512 | Tekst, Heli, Nägemine, Video |
| Gemma-4-E2B | Dense Transformer | 5.1B with embeddings | 2.3B effective | 128K | 512 | Tekst, Heli, Nägemine, Video |
Tabel 1. Ülevaade Gemma 4 mudeliperekonnast, kokku võttes arhitektuuri tüübid, parameetrite suurused, efektiivsed parameetrid, toetatud konteksti pikkused ja saadaolevad modaalused, et aidata arendajatel valida õige mudel andmekeskuse, ääre- ja seadmesiseste juurutuste jaoks.
Need mudelid on saadaval Hugging Face'is BF16 kontrollpunktidega. Arendajatele, kes kasutavad NVIDIA Blackwelli GPU-sid, on Gemma-4-31B jaoks saadaval NVFP4 kvantiseeritud kontrollpunkt NVIDIA Model Optimizer kaudu kasutamiseks vLLM-iga. NVFP4 täpsus säilitab peaaegu identset täpsust 8-bitise täpsusega, parandades samal ajal oluliselt jõudlust vati kohta ja vähendades maksumust tokeni kohta, mis on kriitilise tähtsusega suuremahuliste juurutuste puhul.
Tehisintellekti toomine äärealale: Seadmesisene juurutamine NVIDIA riistvaraga
Kuna AI-töövoogudest ja -agentidest saab igapäevaste toimingute üha olulisem osa, on nende mudelite käitamise võimalus väljaspool traditsioonilisi andmekeskuse keskkondi ülimalt tähtis. NVIDIA pakub laiaulatuslikku kliendi- ja ääresüsteemide ökosüsteemi, alates võimsatest GPU-dest nagu RTX GPU-d kuni spetsialiseeritud Jetsoni seadmete ja DGX Sparkini, pakkudes arendajatele paindlikkust, mis on vajalik kulude, latentsusaja ja turvalisuse optimeerimiseks.
NVIDIA on teinud koostööd juhtivate järeldusraamistikega nagu vLLM, Ollama ja llama.cpp, et tagada Gemma 4 mudelite jaoks optimaalne kohaliku juurutamise kogemus. Lisaks pakub Unsloth nullpäeva tuge optimeeritud ja kvantiseeritud mudelitega, võimaldades tõhusat kohalikku juurutamist Unsloth Studio kaudu. See robustne tugisüsteem annab arendajatele võimaluse juurutada keerukat AI-d otse sinna, kus seda kõige rohkem vaja on.
| DGX Spark | Jetson | RTX / RTX PRO | |
|---|---|---|---|
| Kasutusjuhtum | AI uurimine ja prototüüpimine | Ääre-AI ja robootika | Lauaarvutirakendused ja Windowsi arendus |
| Peamised Eelised | Eelinstallitud NVIDIA AI tarkvarapinu ja 128 GB ühtlustatud mälu toetavad kohalikku prototüüpimist, peenhäälestust ja täielikult kohalikke OpenClaw töövooge | Peaaegu nullilähedane latentsusaeg tänu arhitektuurifunktsioonidele, nagu tingimuslik parameetrite laadimine ja kihipõhised manustused, mida saab vahemällu salvestada kiiremaks ja vähendatud mälukasutuseks (lisateave) | Optimeeritud jõudlus kohalikuks järeldamiseks harrastajatele, loojatele ja professionaalidele |
| Alustamise Juhend | DGX Sparki mänguraamatud vLLM-i, Ollama, Unslothi ja llama.cpp juurutusjuhendite jaoks NeMo Automodel Sparkil peenhäälestuse juhendiks | Jetsoni AI labor õpetuste ja kohandatud Gemma konteinerite jaoks | RTX AI Garaaž Ollama ja llama.cpp juhendite jaoks. RTX Pro omanikud saavad kasutada ka vLLM-i. |
Tabel 2. Kohalike juurutusvõimaluste võrdlus NVIDIA platvormidel, tuues esile peamised kasutusjuhtumid, põhivõimalused ja soovitatud alustamise ressursid DGX Sparki, Jetsoni ja RTX / RTX PRO süsteemidele, mis käitavad Gemma 4 mudeleid.
Turvaliste agentlike töövoogude ja ettevõttevalmis juurutuste loomine
Tehisintellekti arendajatele ja entusiastidele pakub NVIDIA DGX Spark, millel on GB10 Grace Blackwelli superarvutikiip ja 128 GB ühtlustatud mälu, võrratuid ressursse. See robustne platvorm on ideaalne Gemma 4 31B mudeli käitamiseks BF16 kaaludega, võimaldades tõhusat prototüüpimist ja keerukate agentlike AI-töövoogude loomist, tagades samal ajal privaatse ja turvalise seadmesisese täitmise. DGX Linuxi operatsioonisüsteem ja kogu NVIDIA tarkvarapinu pakuvad sujuvat arenduskeskkonda.
VLLM järeldusmootor, mis on loodud suure läbilaskevõimega LLM-teeninduseks, maksimeerib tõhusust ja minimeerib mälukasutust DGX Sparkil. See kombinatsioon pakub suure jõudlusega platvormi suurimate Gemma 4 mudelite juurutamiseks. Arendajad saavad kasutada vLLM-i järeldamiseks mõeldud DGX Sparki mänguraamatut või alustada Ollama või llama.cpp-ga. Lisaks võimaldab NeMo Automodel nende mudelite peenhäälestust otse DGX Sparkil.
Ettevõtte kasutajatele pakub NVIDIA NIM teed tootmisvalmis juurutamiseks. Arendajad saavad prototüüpida Gemma 4 31B-d, kasutades NVIDIA hostitud NIM API-d NVIDIA API kataloogist. Täismahus tootmiseks on saadaval eelpakendatud ja optimeeritud NIM mikroteenused turvaliseks, isemajandatavaks juurutamiseks, mida toetab NVIDIA ettevõttelitsents. See tagab, et ettevõtted saavad juurutada võimsaid AI-lahendusi kindlalt, täites rangeid turvalisuse ja operatiivnõudeid.
Füüsiliste AI-agentide võimestamine NVIDIA Jetsoniga
Kaasaegsete füüsiliste AI-agentide võimekus areneb kiiresti, suures osas tänu Gemma 4 mudelitele, mis integreerivad keerukat heli-, multimodaalset taju ja sügavat arutlemist. Need arenenud mudelid võimaldavad robootikasüsteemidel liikuda kaugemale lihtsustatud ülesannete täitmisest, andes neile võime mõista kõnet, tõlgendada visuaalset konteksti ja arutleda intelligentselt enne tegutsemist.
NVIDIA Jetsoni platvormidel saavad arendajad teha Gemma 4 järeldusi äärealal, kasutades llama.cpp-d ja vLLM-i. Jetson Orin Nano toetab näiteks Gemma 4 E2B ja E4B variante, hõlbustades multimodaalset järeldust väikestes, manussüsteemides ja võimsuspiirangutega süsteemides. See skaleerimisvõime laieneb kogu Jetsoni platvormile, kuni hirmuäratava Jetson Thorini, võimaldades järjepidevat mudelite juurutamist sõltumata riistvara jalajäljest. See on kriitilise tähtsusega robootika, nutikate masinate ja tööstusautomaatika rakendustes, kus madala latentsusega jõudlus ja seadmesisene intelligentsus on ülimalt olulised. Arendajad, kes on huvitatud nende võimaluste uurimisest, leiavad õpetused ja kohandatud Gemma konteinerid Jetsoni AI laborist.
Kohandamine ja kommertslik ligipääsetavus NVIDIA NeMo abil
Tagamaks, et Gemma 4 mudeleid saab kohandada spetsiifiliste rakenduste ja patenteeritud andmekogumite jaoks, pakub NVIDIA robustseid peenhäälestamise võimalusi NVIDIA NeMo raamistiku kaudu. Eelkõige NeMo Automodeli teek ühendab natiivse PyTorchi kasutusmugavuse optimeeritud jõudlusega, muutes kohandamisprotsessi kättesaadavaks ja tõhusaks.
Arendajad saavad kasutada tehnikaid nagu juhendatud peenhäälestus (SFT) ja mälu-tõhus LoRA (Low-Rank Adaptation), et teostada nullpäeva peenhäälestust. See protsess algab otse Hugging Face'is saadaolevatest Gemma 4 mudeli kontrollpunktidest, välistades kohmakate konversioonide vajaduse. See paindlikkus võimaldab ettevõtetel ja teadlastel rikastada Gemma 4 mudeleid domeenispetsiifiliste teadmistega, tagades spetsialiseeritud ülesannete jaoks suure täpsuse ja asjakohasuse.
Gemma 4 mudelid on hõlpsasti kättesaadavad kogu NVIDIA AI-platvormil ja neid pakutakse ärisõbraliku Apache 2.0 litsentsi alusel. See avatud lähtekoodiga litsents hõlbustab laialdast kasutuselevõttu ja integreerimist kaubanduslikesse toodetesse ja teenustesse, andes arendajatele kogu maailmas võimaluse uuendada tipptasemel AI-ga. Blackwelli jõudlusest kuni Jetsoni platvormide kõikjale kättesaadavuseni on Gemma 4 valmis tooma arenenud AI lähemale igale arendajale ja igale seadmele.
Algallikas
https://developer.nvidia.com/blog/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4/Korduma kippuvad küsimused
What is Gemma 4 and what are its key advancements for AI deployment?
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Püsige kursis
Saage värskeimad AI uudised oma postkasti.
