El panorama de la intel·ligència artificial està evolucionant ràpidament, amb una demanda creixent per desplegar models d'IA avançats no només en centres de dades al núvol, sinó també a l'extrem de les xarxes i directament en els dispositius dels usuaris. Aquest canvi és impulsat per la necessitat de menor latència, privadesa millorada, costos operatius reduïts i la capacitat d'operar en entorns amb connectivitat limitada. Per abordar aquests requisits crítics, NVIDIA i Google han col·laborat per introduir els darrers models multimodals i multilingües Gemma 4, dissenyats per escalar de manera fluida des dels centres de dades Blackwell més potents de NVIDIA fins als compactes dispositius edge Jetson.
Aquests models representen un salt significatiu en eficiència i precisió, convertint-los en eines versàtils per a una àmplia gamma de tasques d'IA comunes. La família Gemma 4 està a punt de redefinir com s'integra la IA en les aplicacions quotidianes, oferint capacitats que superen els límits del que és possible en el desplegament d'IA local.
Gemma 4: Avançant en la IA Multimodal i Multilingüe
El Gemmaverse s'ha expandit amb la introducció de quatre nous models Gemma 4, cadascun dissenyat amb escenaris de desplegament específics en ment, alhora que ofereix un conjunt robust de capacitats. Aquests models no es tracten només de la mida; es tracten d'un disseny intel·ligent, oferint un rendiment sòlid en diversos reptes d'IA.
Les capacitats principals dels models Gemma 4 inclouen:
- Raonament: Rendiment excepcional en tasques complexes de resolució de problemes, permetent una presa de decisions més sofisticada.
- Codificació: Funcions avançades de generació de codi i depuració, agilitzant els fluxos de treball dels desenvolupadors.
- Agents: Suport natiu per a l'ús estructurat d'eines, facilitant la creació de potents sistemes d'IA agentics.
- Capacitat de Visió, Àudio i Vídeo: Riques interaccions multimodals per a casos d'ús com el reconeixement d'objectes, el reconeixement automàtic de veu (ASR), la intel·ligència de documents i vídeo.
- Entrada Multimodal Interfoliada: La capacitat de barrejar lliurement text i imatges dins d'una única sol·licitud, oferint una interacció més natural i completa.
- Suport Multilingüe: Suport immediat per a més de 35 idiomes, amb preentrenament en més de 140 idiomes, ampliant l'accessibilitat global.
La família Gemma 4 inclou el primer model Mixture-of-Experts (MoE) de la sèrie Gemma, optimitzat per a l'eficiència. Remarcablement, els quatre models caben en una única GPU NVIDIA H100, demostrant el seu disseny optimitzat. Les variants 31B i 26B A4B són models de raonament d'alt rendiment adequats tant per a entorns locals com per a centres de dades, mentre que els models E4B i E2B estan dissenyats específicament per a aplicacions al dispositiu i mòbils, basant-se en el llegat de Gemma 3n.
| Nom del Model | Tipus d'Arquitectura | Paràmetres Totals | Paràmetres Actius o Efectius | Longitud del Context d'Entrada (Tokens) | Finestra Lliscant (Tokens) | Modalitats |
|---|---|---|---|---|---|---|
| Gemma-4-31B | Dense Transformer | 31B | — | 256K | 1024 | Text |
| Gemma-4-26B-A4B | MoE – 128 Experts | 26B | 3.8B | 256K | — | Text |
| Gemma-4-E4B | Dense Transformer | 7.9B with embeddings | 4.5B effective | 128K | 512 | Text, Audio, Vision, Video |
| Gemma-4-E2B | Dense Transformer | 5.1B with embeddings | 2.3B effective | 128K | 512 | Text, Audio, Vision, Video |
Taula 1. Visió general de la família de models Gemma 4, resumint els tipus d'arquitectura, mides dels paràmetres, paràmetres efectius, longituds de context suportades i modalitats disponibles per ajudar els desenvolupadors a triar el model adequat per a desplegaments en centres de dades, edge i al dispositiu.
Aquests models estan disponibles a Hugging Face amb punts de control BF16. Per als desenvolupadors que utilitzen GPUs NVIDIA Blackwell, hi ha disponible un punt de control quantificat NVFP4 per a Gemma-4-31B a través de NVIDIA Model Optimizer per utilitzar amb vLLM. La precisió NVFP4 manté una precisió gairebé idèntica a la precisió de 8 bits alhora que millora significativament el rendiment per watt i redueix el cost per token, un aspecte crític per a desplegaments a gran escala.
Apropant la IA a l'Edge: Desplegament al Dispositiu amb Maquinari NVIDIA
A mesura que els fluxos de treball d'IA i els agents esdevenen cada cop més integrals en les operacions diàries, la capacitat d'executar aquests models més enllà dels entorns tradicionals dels centres de dades és primordial. NVIDIA ofereix un ecosistema complet de sistemes client i edge, des de potents GPUs com les GPUs RTX fins a dispositius Jetson especialitzats i DGX Spark, proporcionant als desenvolupadors la flexibilitat necessària per optimitzar el cost, la latència i la seguretat.
NVIDIA ha col·laborat amb frameworks d'inferència líders com vLLM, Ollama i llama.cpp per garantir una experiència de desplegament local òptima per als models Gemma 4. A més, Unsloth ofereix suport des del primer dia amb models optimitzats i quantificats, permetent un desplegament local eficient a través de Unsloth Studio. Aquest robust sistema de suport permet als desenvolupadors desplegar IA sofisticada directament on més es necessita.
| DGX Spark | Jetson | RTX / RTX PRO | |
|---|---|---|---|
| Cas d'Ús | Recerca i prototipització d'IA | IA a l'Edge i robòtica | Aplicacions d'escriptori i desenvolupament de Windows |
| Aspectes Destacats | Una pila de programari d'IA de NVIDIA preinstal·lada i 128 GB de memòria unificada alimenten la prototipització local, l'ajust fi i els fluxos de treball OpenClaw totalment locals | Latència gairebé zero gràcies a característiques d'arquitectura com la càrrega condicional de paràmetres i embeddings per capa que es poden emmagatzemar en memòria cau per a un ús més ràpid i reduït de la memòria ( més informació) | Rendiment optimitzat per a la inferència local per a aficionats, creadors i professionals |
| Guia d'Inici Ràpid | Playbooks de DGX Spark per a guies de desplegament de vLLM, Ollama, Unsloth i llama.cpp NeMo Automodel per a la guia d'ajust fi a Spark | Jetson AI Lab per a tutorials i contenidors Gemma personalitzats | RTX AI Garage per a guies d'Ollama i llama.cpp. Els propietaris de RTX Pro també poden utilitzar vLLM. |
Taula 2. Comparació de les opcions de desplegament local a través de les plataformes NVIDIA, destacant els casos d'ús primaris, les capacitats clau i els recursos d'inici recomanats per als sistemes DGX Spark, Jetson i RTX / RTX PRO que executen models Gemma 4.
Construint Fluxos de Treball Agentics Segurs i Desplegaments Preparats per a Empreses
Per als desenvolupadors i entusiastes de la IA, el NVIDIA DGX Spark, que inclou el superxip GB10 Grace Blackwell i 128 GB de memòria unificada, ofereix recursos inigualables. Aquesta plataforma robusta és ideal per executar el model Gemma 4 31B amb pesos BF16, permetent una prototipació eficient i la construcció de complexos fluxos de treball d'IA agentics alhora que garanteix una execució privada i segura al dispositiu. El sistema operatiu DGX Linux i la pila de programari completa de NVIDIA proporcionen un entorn de desenvolupament sense problemes.
El motor d'inferència vLLM, dissenyat per a un servei d'LLM d'alt rendiment, maximitza l'eficiència i minimitza l'ús de memòria a DGX Spark. Aquesta combinació proporciona una plataforma d'alt rendiment per desplegar els models Gemma 4 més grans. Els desenvolupadors poden aprofitar el playbook de vLLM per a inferència a DGX Spark o començar amb Ollama o llama.cpp. A més, el NeMo Automodel permet l'ajust fi d'aquests models directament a DGX Spark.
Per als usuaris empresarials, NVIDIA NIM ofereix un camí cap al desplegament preparat per a la producció. Els desenvolupadors poden prototipar Gemma 4 31B utilitzant una API NIM allotjada per NVIDIA des del catàleg d'API de NVIDIA. Per a la producció a gran escala, hi ha disponibles microserveis NIM preempaquetats i optimitzats per a un desplegament segur i autoallotjat, amb el suport d'una llicència NVIDIA Enterprise. Això garanteix que les empreses puguin desplegar solucions d'IA potents amb confiança, complint amb els requisits de seguretat i operatius més estrictes.
Potenciant Agents Físics d'IA amb NVIDIA Jetson
Les capacitats dels agents físics d'IA moderns estan avançant ràpidament, en gran part gràcies als models Gemma 4 que integren àudio sofisticat, percepció multimodal i raonament profund. Aquests models avançats permeten als sistemes robòtics anar més enllà de l'execució de tasques simplistes, atorgant-los la capacitat d'entendre la parla, interpretar el context visual i raonar de manera intel·ligent abans d'actuar.
A les plataformes NVIDIA Jetson, els desenvolupadors poden realitzar inferència de Gemma 4 a l'edge utilitzant llama.cpp i vLLM. El Jetson Orin Nano, per exemple, suporta les variants Gemma 4 E2B i E4B, facilitant la inferència multimodal en sistemes petits, encastats i amb restriccions d'energia. Aquesta capacitat d'escalat s'estén per tota la plataforma Jetson, fins al formidable Jetson Thor, permetent un desplegament coherent del model independentment de la petjada de maquinari. Això és crucial per a aplicacions en robòtica, màquines intel·ligents i automatització industrial on el rendiment de baixa latència i la intel·ligència al dispositiu són primordials. Els desenvolupadors interessats a explorar aquestes capacitats poden trobar tutorials i contenidors Gemma personalitzats al Jetson AI Lab.
Personalització i Accessibilitat Comercial amb NVIDIA NeMo
Per garantir que els models Gemma 4 es puguin adaptar a aplicacions específiques i conjunts de dades propietaris, NVIDIA ofereix robustes capacitats d'ajust fi a través del framework NVIDIA NeMo. La llibreria NeMo Automodel, en particular, combina la facilitat d'ús de PyTorch natiu amb un rendiment optimitzat, fent el procés de personalització accessible i eficient.
Els desenvolupadors poden aprofitar tècniques com l'ajust fi supervisat (SFT) i LoRA (Low-Rank Adaptation) de memòria eficient per realitzar un ajust fi 'dia zero'. Aquest procés comença directament des dels punts de control del model Gemma 4 disponibles a Hugging Face, eliminant la necessitat de passos de conversió feixugues. Aquesta flexibilitat permet a empreses i investigadors dotar els models Gemma 4 de coneixements específics de domini, assegurant una alta precisió i rellevància per a tasques especialitzades.
Els models Gemma 4 estan fàcilment disponibles a tota la plataforma d'IA de NVIDIA i s'ofereixen sota la llicència Apache 2.0, compatible amb l'ús comercial. Aquesta llicència de codi obert facilita una àmplia adopció i integració en productes i serveis comercials, permetent als desenvolupadors de tot el món innovar amb IA d'última generació. Des del rendiment de Blackwell fins a la ubiqüitat de les plataformes Jetson, Gemma 4 està a punt d'apropar la IA avançada a cada desenvolupador i cada dispositiu.
Font original
https://developer.nvidia.com/blog/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4/Preguntes freqüents
What is Gemma 4 and what are its key advancements for AI deployment?
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Manteniu-vos al dia
Rebeu les últimes notícies d'IA al correu.
