Code Velocity
Modely AI

Gemma 4: Škálovanie AI od dátového centra k Edge s NVIDIA

·5 min čítania·NVIDIA·Pôvodný zdroj
Zdieľať
Modely NVIDIA Gemma 4 umožňujúce AI na okrajových zariadeniach a dátových centrách

Prostredie umelej inteligencie sa rýchlo vyvíja, s rastúcim dopytom po nasadzovaní pokročilých modelov AI nielen v cloudových dátových centrách, ale aj na samotnom okraji sietí a priamo na používateľských zariadeniach. Tento posun je poháňaný potrebou nižšej latencie, vylepšeného súkromia, znížených prevádzkových nákladov a schopnosti fungovať v prostrediach s obmedzenou konektivitou. Na riešenie týchto kritických požiadaviek spoločnosti NVIDIA a Google spolupracovali na predstavení najnovších multimodálnych a viacjazyčných modelov Gemma 4, navrhnutých tak, aby sa bezproblémovo škálovali od najvýkonnejších dátových centier NVIDIA Blackwell až po kompaktné okrajové zariadenia Jetson.

Tieto modely predstavujú významný skok v účinnosti a presnosti, čo z nich robí všestranné nástroje pre širokú škálu bežných úloh AI. Rodina Gemma 4 je pripravená predefinovať spôsob, akým je AI integrovaná do každodenných aplikácií, a ponúka schopnosti, ktoré posúvajú hranice možností pri lokálnom nasadení AI.

Gemma 4: Pokrok v multimodálnej a viacjazyčnej AI

Svet Gemmaverse sa rozšíril o štyri nové modely Gemma 4, z ktorých každý je navrhnutý s ohľadom na špecifické scenáre nasadenia a zároveň ponúka robustný súbor schopností. Tieto modely nie sú len o veľkosti; sú o inteligentnom dizajne, ktorý poskytuje silný výkon v rôznych výzvach AI.

Kľúčové schopnosti modelov Gemma 4 zahŕňajú:

  • Uvažovanie: Výnimočný výkon pri komplexných úlohách riešenia problémov, umožňujúci sofistikovanejšie rozhodovanie.
  • Kódovanie: Pokročilé funkcie generovania a ladenia kódu, zefektívňujúce pracovné postupy vývojárov.
  • Agenti: Natívna podpora pre štruktúrované používanie nástrojov, uľahčujúca vytváranie výkonných agentických systémov AI.
  • Možnosť Vizuálneho, Audio a Video Vstupu: Bohaté multimodálne interakcie pre prípady použitia ako rozpoznávanie objektov, automatické rozpoznávanie reči (ASR), inteligencia dokumentov a videa.
  • Prekladaný multimodálny vstup: Schopnosť voľne miešať text a obrázky v rámci jedinej výzvy, čo ponúka prirodzenejšiu a komplexnejšiu interakciu.
  • Viacjazyčná podpora: Out-of-the-box podpora pre viac ako 35 jazykov, s predtrénovaním na viac ako 140 jazykoch, rozširujúcim globálnu dostupnosť.

Rodina Gemma 4 zahŕňa prvý model Mixture-of-Experts (MoE) v sérii Gemma, optimalizovaný pre efektivitu. Je pozoruhodné, že všetky štyri modely sa zmestia na jednu NVIDIA H100 GPU, čo demonštruje ich optimalizovaný dizajn. Variant 31B a 26B A4B sú vysoko výkonné modely uvažovania vhodné pre lokálne prostredia aj dátové centrá, zatiaľ čo modely E4B a E2B sú špecificky prispôsobené pre aplikácie na zariadení a mobilné aplikácie, nadväzujúce na odkaz Gemma 3n.

Názov modeluTyp architektúryCelkový počet parametrovAktívne alebo efektívne parametreDĺžka vstupného kontextu (tokeny)Posuvné okno (tokeny)Modality
Gemma-4-31BHustý transformátor31B256K1024Text
Gemma-4-26B-A4BMoE – 128 expertov26B3.8B256KText
Gemma-4-E4BHustý transformátor7.9B s vložkami4.5B efektívne128K512Text, Audio, Vizuál, Video
Gemma-4-E2BHustý transformátor5.1B s vložkami2.3B efektívne128K512Text, Audio, Vizuál, Video

Tabuľka 1. Prehľad rodiny modelov Gemma 4, sumarizujúca typy architektúr, veľkosti parametrov, efektívne parametre, podporované dĺžky kontextu a dostupné modality, aby pomohla vývojárom vybrať správny model pre dátové centrá, edge a on-device nasadenia.

Tieto modely sú dostupné na Hugging Face s kontrolnými bodmi BF16. Pre vývojárov využívajúcich GPU NVIDIA Blackwell je k dispozícii kvantizovaný kontrolný bod NVFP4 pre Gemma-4-31B prostredníctvom NVIDIA Model Optimizer na použitie s vLLM. Presnosť NVFP4 udržiava takmer identickú presnosť ako 8-bitová presnosť, pričom výrazne zlepšuje výkon na watt a znižuje náklady na token, čo je kľúčové pre rozsiahle nasadenia.

Prinášanie AI k Edge: Nasadenie na Zariadení s Hardvérom NVIDIA

Keďže pracovné postupy a agenti AI sa stávajú čoraz neoddeliteľnejšou súčasťou každodenných operácií, schopnosť spúšťať tieto modely mimo tradičných dátových centier je prvoradá. NVIDIA ponúka komplexný ekosystém klientskych a okrajových systémov, od výkonných GPU ako sú GPU RTX, po špecializované zariadenia Jetson a DGX Spark, čím poskytuje vývojárom flexibilitu potrebnú na optimalizáciu nákladov, latencie a bezpečnosti.

NVIDIA spolupracovala s poprednými inferenčnými frameworkmi ako vLLM, Ollama a llama.cpp, aby zabezpečila optimálny zážitok z lokálneho nasadenia pre modely Gemma 4. Okrem toho, Unsloth poskytuje podporu od prvého dňa s optimalizovanými a kvantizovanými modelmi, čo umožňuje efektívne lokálne nasadenie prostredníctvom Unsloth Studio. Tento robustný systém podpory umožňuje vývojárom nasadiť sofistikovanú AI priamo tam, kde je to najviac potrebné.

DGX SparkJetsonRTX / RTX PRO
Prípad použitiaVýskum a prototypovanie AIEdge AI a robotikaDesktopové aplikácie a vývoj pre Windows
Kľúčové vlastnostiPredinštalovaný softvérový balík NVIDIA AI a 128 GB unifikovanej pamäte poháňajú lokálne prototypovanie, doladenie a plne lokálne pracovné postupy OpenClawTakmer nulová latencia vďaka architektonickým prvkom, ako je podmienené načítavanie parametrov a vloženia pre jednotlivé vrstvy, ktoré môžu byť cachované pre rýchlejšie a znížené využitie pamäte ( viac info)Optimalizovaný výkon pre lokálnu inferenciu pre nadšencov, tvorcov a profesionálov
Sprievodca začiatočníkaDGX Spark Playbooky pre sprievodcov nasadením vLLM, Ollama, Unsloth a llama.cpp
NeMo Automodel pre sprievodcu doladením na Spark
Jetson AI Lab pre tutoriály a vlastné kontajnery GemmaRTX AI Garage pre sprievodcov Ollama a llama.cpp. Majitelia RTX Pro môžu používať aj vLLM.

Tabuľka 2. Porovnanie možností lokálneho nasadenia naprieč platformami NVIDIA, zdôrazňujúce primárne prípady použitia, kľúčové schopnosti a odporúčané zdroje pre začiatok pre systémy DGX Spark, Jetson a RTX / RTX PRO spúšťajúce modely Gemma 4.

Budovanie bezpečných agentických pracovných postupov a nasadení pripravených pre podniky

Pre vývojárov a nadšencov AI, NVIDIA DGX Spark, vybavený GB10 Grace Blackwell Superchipom a 128 GB unifikovanej pamäte, ponúka bezkonkurenčné zdroje. Táto robustná platforma je ideálna pre spúšťanie modelu Gemma 4 31B s váhami BF16, čo umožňuje efektívne prototypovanie a budovanie komplexných agentických pracovných postupov AI pri zabezpečení súkromného a bezpečného vykonávania na zariadení. DGX Linux OS a kompletný softvérový balík NVIDIA poskytujú bezproblémové vývojové prostredie.

Inferenčný engine vLLM, navrhnutý pre vysoko priepustné LLM servírovanie, maximalizuje efektivitu a minimalizuje využitie pamäte na DGX Spark. Táto kombinácia poskytuje vysoko výkonnú platformu pre nasadenie najväčších modelov Gemma 4. Vývojári môžu využiť vLLM pre inferenciu DGX Spark playbook alebo začať s Ollama alebo llama.cpp. Okrem toho, NeMo Automodel umožňuje doladenie týchto modelov priamo na DGX Spark.

Pre podnikových používateľov ponúka NVIDIA NIM cestu k nasadeniu pripravenému pre produkciu. Vývojári môžu prototypovať Gemma 4 31B pomocou NVIDIA-hostovaného NIM API z katalógu NVIDIA API. Pre plnohodnotnú produkciu sú k dispozícii predbalené a optimalizované mikroslužby NIM pre bezpečné, samostatne hostované nasadenie, podporované licenciou NVIDIA Enterprise. To zaručuje, že podniky môžu s dôverou nasadiť výkonné riešenia AI, spĺňajúce prísne bezpečnostné a prevádzkové požiadavky.

Posilnenie fyzických AI agentov s NVIDIA Jetson

Schopnosti moderných fyzických AI agentov sa rýchlo posúvajú vpred, z veľkej časti vďaka modelom Gemma 4, ktoré integrujú sofistikovaný zvuk, multimodálne vnímanie a hlboké uvažovanie. Tieto pokročilé modely umožňujú robotickým systémom prejsť za hranice jednoduchého vykonávania úloh, čím im udeľujú schopnosť rozumieť reči, interpretovať vizuálny kontext a inteligentne uvažovať pred konaním.

Na platformách NVIDIA Jetson môžu vývojári vykonávať inferenciu Gemma 4 na okraji siete pomocou llama.cpp a vLLM. Jetson Orin Nano, napríklad, podporuje varianty Gemma 4 E2B a E4B, čím uľahčuje multimodálnu inferenciu na malých, vstavaných systémoch s obmedzeným výkonom. Táto schopnosť škálovania sa rozširuje naprieč celou platformou Jetson, až po impozantný Jetson Thor, čo umožňuje konzistentné nasadenie modelu bez ohľadu na hardvérovú náročnosť. To je kľúčové pre aplikácie v robotike, inteligentných strojoch a priemyselnej automatizácii, kde sú nízka latencia a inteligencia na zariadení prvoradé. Vývojári, ktorí sa zaujímajú o preskúmanie týchto schopností, nájdu tutoriály a vlastné kontajnery Gemma v Jetson AI Lab.

Prispôsobenie a komerčná dostupnosť s NVIDIA NeMo

Aby sa zabezpečilo, že modely Gemma 4 môžu byť prispôsobené špecifickým aplikáciám a proprietárnym dátovým súborom, NVIDIA ponúka robustné možnosti doladenia prostredníctvom frameworku NVIDIA NeMo. Knižnica NeMo Automodel, konkrétne, kombinuje jednoduchosť použitia natívneho PyTorch s optimalizovaným výkonom, čím robí proces prispôsobenia prístupným a efektívnym.

Vývojári môžu využívať techniky ako SFT (supervised fine-tuning) a pamäťovo efektívne LoRA (Low-Rank Adaptation) na vykonanie "day-zero" doladenia. Tento proces začína priamo z kontrolných bodov modelu Gemma 4 dostupných na Hugging Face, čím sa eliminuje potreba zdĺhavých konverzných krokov. Táto flexibilita umožňuje podnikom a výskumníkom obohatiť modely Gemma 4 o doménovo špecifické znalosti, čím sa zabezpečí vysoká presnosť a relevantnosť pre špecializované úlohy.

Modely Gemma 4 sú ľahko dostupné naprieč celou platformou NVIDIA AI a sú ponúkané pod komerčne priateľskou licenciou Apache 2.0. Táto open-source licencia uľahčuje široké prijatie a integráciu do komerčných produktov a služieb, čím posilňuje vývojárov po celom svete, aby inovovali s najmodernejšou AI. Od výkonu Blackwell až po všadeprítomnosť platforiem Jetson, Gemma 4 má za cieľ priblížiť pokročilú AI každému vývojárovi a každému zariadeniu.

Často kladené otázky

What is Gemma 4 and what are its key advancements for AI deployment?
Gemma 4 represents the latest generation of multimodal and multilingual AI models from Google, designed for broad deployment across the entire NVIDIA hardware spectrum, from powerful Blackwell data centers to compact Jetson edge devices. Its key advancements include significantly improved efficiency and accuracy, making it suitable for diverse tasks like complex problem-solving, code generation, and agent tool use. These models boast rich multimodal capabilities, supporting interleaved text and images, and are pre-trained on over 140 languages. This versatility and scalability address the growing demand for local, secure, cost-efficient, and low-latency AI applications, pushing intelligence closer to the source of data and action.
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
Gemma 4 is specifically optimized to enable robust on-device and edge AI deployments, crucial for applications requiring low latency, enhanced privacy, and reduced operational costs. NVIDIA's comprehensive suite of client and edge systems—including RTX GPUs, DGX Spark, and Jetson devices—provides the necessary flexibility and performance. For instance, Jetson platforms support Gemma 4 E2B and E4B variants for multimodal inference on power-constrained embedded systems, while RTX GPUs offer optimized performance for local inference on desktops. Collaborations with vLLM, Ollama, llama.cpp, and Unsloth ensure efficient local deployment experiences across these diverse platforms, empowering developers to integrate advanced AI directly into their applications and devices.
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
NVIDIA DGX Spark provides a powerful platform for AI developers and enthusiasts to prototype and build secure, agentic AI workflows with Gemma 4. Featuring GB10 Grace Blackwell Superchips and 128 GB of unified memory, DGX Spark enables efficient running of even the largest Gemma 4 models with BF16 weights, maintaining private and secure on-device execution. The vLLM inference engine on DGX Spark further optimizes LLM serving for high throughput. For production deployment, NVIDIA NIM offers prepackaged and optimized microservices, providing a secure, self-hosted solution for enterprises with an NVIDIA Enterprise License. A hosted NIM API is also available in the NVIDIA API catalog for initial prototyping.
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
Developers can customize Gemma 4 models with their unique domain data using the NVIDIA NeMo framework, particularly the NeMo Automodel library. This powerful tool combines the ease of use of native PyTorch with optimized performance, allowing for efficient fine-tuning. Techniques such as supervised fine-tuning (SFT) and memory-efficient LoRA (Low-Rank Adaptation) can be applied directly to Gemma 4 model checkpoints available on Hugging Face, eliminating the need for cumbersome conversions. This enables day-zero fine-tuning, ensuring models are highly relevant and accurate for specialized applications and datasets, enhancing their utility across various industry verticals.
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Gemma 4 models are made highly accessible to developers and enterprises through the commercial-friendly Apache 2.0 license. This open-source license allows for broad use, modification, and distribution of the models, facilitating their integration into various commercial products and services without restrictive licensing fees. Furthermore, NVIDIA ensures wide availability across its entire AI platform, from Blackwell data centers to Jetson edge devices. Developers can get started immediately by accessing model checkpoints on Hugging Face, utilizing NVIDIA's extensive documentation and tutorials, and leveraging tools like vLLM, Ollama, and NeMo for deployment and customization, making advanced AI readily available for innovation.

Buďte informovaní

Dostávajte najnovšie AI správy do schránky.

Zdieľať