Code Velocity
Models d'IA

Gemma 4: Escalant la IA des del centre de dades fins a l'Edge amb NVIDIA

·5 min de lectura·NVIDIA·Font original
Compartir
Models NVIDIA Gemma 4 que habiliten la IA en dispositius edge i centres de dades

El panorama de la intel·ligència artificial està evolucionant ràpidament, amb una demanda creixent per desplegar models d'IA avançats no només en centres de dades al núvol, sinó també a l'extrem de les xarxes i directament en els dispositius dels usuaris. Aquest canvi és impulsat per la necessitat de menor latència, privadesa millorada, costos operatius reduïts i la capacitat d'operar en entorns amb connectivitat limitada. Per abordar aquests requisits crítics, NVIDIA i Google han col·laborat per introduir els darrers models multimodals i multilingües Gemma 4, dissenyats per escalar de manera fluida des dels centres de dades Blackwell més potents de NVIDIA fins als compactes dispositius edge Jetson.

Aquests models representen un salt significatiu en eficiència i precisió, convertint-los en eines versàtils per a una àmplia gamma de tasques d'IA comunes. La família Gemma 4 està a punt de redefinir com s'integra la IA en les aplicacions quotidianes, oferint capacitats que superen els límits del que és possible en el desplegament d'IA local.

Gemma 4: Avançant en la IA Multimodal i Multilingüe

El Gemmaverse s'ha expandit amb la introducció de quatre nous models Gemma 4, cadascun dissenyat amb escenaris de desplegament específics en ment, alhora que ofereix un conjunt robust de capacitats. Aquests models no es tracten només de la mida; es tracten d'un disseny intel·ligent, oferint un rendiment sòlid en diversos reptes d'IA.

Les capacitats principals dels models Gemma 4 inclouen:

  • Raonament: Rendiment excepcional en tasques complexes de resolució de problemes, permetent una presa de decisions més sofisticada.
  • Codificació: Funcions avançades de generació de codi i depuració, agilitzant els fluxos de treball dels desenvolupadors.
  • Agents: Suport natiu per a l'ús estructurat d'eines, facilitant la creació de potents sistemes d'IA agentics.
  • Capacitat de Visió, Àudio i Vídeo: Riques interaccions multimodals per a casos d'ús com el reconeixement d'objectes, el reconeixement automàtic de veu (ASR), la intel·ligència de documents i vídeo.
  • Entrada Multimodal Interfoliada: La capacitat de barrejar lliurement text i imatges dins d'una única sol·licitud, oferint una interacció més natural i completa.
  • Suport Multilingüe: Suport immediat per a més de 35 idiomes, amb preentrenament en més de 140 idiomes, ampliant l'accessibilitat global.

La família Gemma 4 inclou el primer model Mixture-of-Experts (MoE) de la sèrie Gemma, optimitzat per a l'eficiència. Remarcablement, els quatre models caben en una única GPU NVIDIA H100, demostrant el seu disseny optimitzat. Les variants 31B i 26B A4B són models de raonament d'alt rendiment adequats tant per a entorns locals com per a centres de dades, mentre que els models E4B i E2B estan dissenyats específicament per a aplicacions al dispositiu i mòbils, basant-se en el llegat de Gemma 3n.

Nom del ModelTipus d'ArquitecturaParàmetres TotalsParàmetres Actius o EfectiusLongitud del Context d'Entrada (Tokens)Finestra Lliscant (Tokens)Modalitats
Gemma-4-31BDense Transformer31B256K1024Text
Gemma-4-26B-A4BMoE – 128 Experts26B3.8B256KText
Gemma-4-E4BDense Transformer7.9B with embeddings4.5B effective128K512Text, Audio, Vision, Video
Gemma-4-E2BDense Transformer5.1B with embeddings2.3B effective128K512Text, Audio, Vision, Video

Taula 1. Visió general de la família de models Gemma 4, resumint els tipus d'arquitectura, mides dels paràmetres, paràmetres efectius, longituds de context suportades i modalitats disponibles per ajudar els desenvolupadors a triar el model adequat per a desplegaments en centres de dades, edge i al dispositiu.

Aquests models estan disponibles a Hugging Face amb punts de control BF16. Per als desenvolupadors que utilitzen GPUs NVIDIA Blackwell, hi ha disponible un punt de control quantificat NVFP4 per a Gemma-4-31B a través de NVIDIA Model Optimizer per utilitzar amb vLLM. La precisió NVFP4 manté una precisió gairebé idèntica a la precisió de 8 bits alhora que millora significativament el rendiment per watt i redueix el cost per token, un aspecte crític per a desplegaments a gran escala.

Apropant la IA a l'Edge: Desplegament al Dispositiu amb Maquinari NVIDIA

A mesura que els fluxos de treball d'IA i els agents esdevenen cada cop més integrals en les operacions diàries, la capacitat d'executar aquests models més enllà dels entorns tradicionals dels centres de dades és primordial. NVIDIA ofereix un ecosistema complet de sistemes client i edge, des de potents GPUs com les GPUs RTX fins a dispositius Jetson especialitzats i DGX Spark, proporcionant als desenvolupadors la flexibilitat necessària per optimitzar el cost, la latència i la seguretat.

NVIDIA ha col·laborat amb frameworks d'inferència líders com vLLM, Ollama i llama.cpp per garantir una experiència de desplegament local òptima per als models Gemma 4. A més, Unsloth ofereix suport des del primer dia amb models optimitzats i quantificats, permetent un desplegament local eficient a través de Unsloth Studio. Aquest robust sistema de suport permet als desenvolupadors desplegar IA sofisticada directament on més es necessita.

DGX SparkJetsonRTX / RTX PRO
Cas d'ÚsRecerca i prototipització d'IAIA a l'Edge i robòticaAplicacions d'escriptori i desenvolupament de Windows
Aspectes DestacatsUna pila de programari d'IA de NVIDIA preinstal·lada i 128 GB de memòria unificada alimenten la prototipització local, l'ajust fi i els fluxos de treball OpenClaw totalment localsLatència gairebé zero gràcies a característiques d'arquitectura com la càrrega condicional de paràmetres i embeddings per capa que es poden emmagatzemar en memòria cau per a un ús més ràpid i reduït de la memòria ( més informació)Rendiment optimitzat per a la inferència local per a aficionats, creadors i professionals
Guia d'Inici RàpidPlaybooks de DGX Spark per a guies de desplegament de vLLM, Ollama, Unsloth i llama.cpp
NeMo Automodel per a la guia d'ajust fi a Spark
Jetson AI Lab per a tutorials i contenidors Gemma personalitzatsRTX AI Garage per a guies d'Ollama i llama.cpp. Els propietaris de RTX Pro també poden utilitzar vLLM.

Taula 2. Comparació de les opcions de desplegament local a través de les plataformes NVIDIA, destacant els casos d'ús primaris, les capacitats clau i els recursos d'inici recomanats per als sistemes DGX Spark, Jetson i RTX / RTX PRO que executen models Gemma 4.

Construint Fluxos de Treball Agentics Segurs i Desplegaments Preparats per a Empreses

Per als desenvolupadors i entusiastes de la IA, el NVIDIA DGX Spark, que inclou el superxip GB10 Grace Blackwell i 128 GB de memòria unificada, ofereix recursos inigualables. Aquesta plataforma robusta és ideal per executar el model Gemma 4 31B amb pesos BF16, permetent una prototipació eficient i la construcció de complexos fluxos de treball d'IA agentics alhora que garanteix una execució privada i segura al dispositiu. El sistema operatiu DGX Linux i la pila de programari completa de NVIDIA proporcionen un entorn de desenvolupament sense problemes.

El motor d'inferència vLLM, dissenyat per a un servei d'LLM d'alt rendiment, maximitza l'eficiència i minimitza l'ús de memòria a DGX Spark. Aquesta combinació proporciona una plataforma d'alt rendiment per desplegar els models Gemma 4 més grans. Els desenvolupadors poden aprofitar el playbook de vLLM per a inferència a DGX Spark o començar amb Ollama o llama.cpp. A més, el NeMo Automodel permet l'ajust fi d'aquests models directament a DGX Spark.

Per als usuaris empresarials, NVIDIA NIM ofereix un camí cap al desplegament preparat per a la producció. Els desenvolupadors poden prototipar Gemma 4 31B utilitzant una API NIM allotjada per NVIDIA des del catàleg d'API de NVIDIA. Per a la producció a gran escala, hi ha disponibles microserveis NIM preempaquetats i optimitzats per a un desplegament segur i autoallotjat, amb el suport d'una llicència NVIDIA Enterprise. Això garanteix que les empreses puguin desplegar solucions d'IA potents amb confiança, complint amb els requisits de seguretat i operatius més estrictes.

Potenciant Agents Físics d'IA amb NVIDIA Jetson

Les capacitats dels agents físics d'IA moderns estan avançant ràpidament, en gran part gràcies als models Gemma 4 que integren àudio sofisticat, percepció multimodal i raonament profund. Aquests models avançats permeten als sistemes robòtics anar més enllà de l'execució de tasques simplistes, atorgant-los la capacitat d'entendre la parla, interpretar el context visual i raonar de manera intel·ligent abans d'actuar.

A les plataformes NVIDIA Jetson, els desenvolupadors poden realitzar inferència de Gemma 4 a l'edge utilitzant llama.cpp i vLLM. El Jetson Orin Nano, per exemple, suporta les variants Gemma 4 E2B i E4B, facilitant la inferència multimodal en sistemes petits, encastats i amb restriccions d'energia. Aquesta capacitat d'escalat s'estén per tota la plataforma Jetson, fins al formidable Jetson Thor, permetent un desplegament coherent del model independentment de la petjada de maquinari. Això és crucial per a aplicacions en robòtica, màquines intel·ligents i automatització industrial on el rendiment de baixa latència i la intel·ligència al dispositiu són primordials. Els desenvolupadors interessats a explorar aquestes capacitats poden trobar tutorials i contenidors Gemma personalitzats al Jetson AI Lab.

Personalització i Accessibilitat Comercial amb NVIDIA NeMo

Per garantir que els models Gemma 4 es puguin adaptar a aplicacions específiques i conjunts de dades propietaris, NVIDIA ofereix robustes capacitats d'ajust fi a través del framework NVIDIA NeMo. La llibreria NeMo Automodel, en particular, combina la facilitat d'ús de PyTorch natiu amb un rendiment optimitzat, fent el procés de personalització accessible i eficient.

Els desenvolupadors poden aprofitar tècniques com l'ajust fi supervisat (SFT) i LoRA (Low-Rank Adaptation) de memòria eficient per realitzar un ajust fi 'dia zero'. Aquest procés comença directament des dels punts de control del model Gemma 4 disponibles a Hugging Face, eliminant la necessitat de passos de conversió feixugues. Aquesta flexibilitat permet a empreses i investigadors dotar els models Gemma 4 de coneixements específics de domini, assegurant una alta precisió i rellevància per a tasques especialitzades.

Els models Gemma 4 estan fàcilment disponibles a tota la plataforma d'IA de NVIDIA i s'ofereixen sota la llicència Apache 2.0, compatible amb l'ús comercial. Aquesta llicència de codi obert facilita una àmplia adopció i integració en productes i serveis comercials, permetent als desenvolupadors de tot el món innovar amb IA d'última generació. Des del rendiment de Blackwell fins a la ubiqüitat de les plataformes Jetson, Gemma 4 està a punt d'apropar la IA avançada a cada desenvolupador i cada dispositiu.

Preguntes freqüents

What is Gemma 4 and what are its key advancements for AI deployment?
Gemma 4 represents the latest generation of multimodal and multilingual AI models from Google, designed for broad deployment across the entire NVIDIA hardware spectrum, from powerful Blackwell data centers to compact Jetson edge devices. Its key advancements include significantly improved efficiency and accuracy, making it suitable for diverse tasks like complex problem-solving, code generation, and agent tool use. These models boast rich multimodal capabilities, supporting interleaved text and images, and are pre-trained on over 140 languages. This versatility and scalability address the growing demand for local, secure, cost-efficient, and low-latency AI applications, pushing intelligence closer to the source of data and action.
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
Gemma 4 is specifically optimized to enable robust on-device and edge AI deployments, crucial for applications requiring low latency, enhanced privacy, and reduced operational costs. NVIDIA's comprehensive suite of client and edge systems—including RTX GPUs, DGX Spark, and Jetson devices—provides the necessary flexibility and performance. For instance, Jetson platforms support Gemma 4 E2B and E4B variants for multimodal inference on power-constrained embedded systems, while RTX GPUs offer optimized performance for local inference on desktops. Collaborations with vLLM, Ollama, llama.cpp, and Unsloth ensure efficient local deployment experiences across these diverse platforms, empowering developers to integrate advanced AI directly into their applications and devices.
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
NVIDIA DGX Spark provides a powerful platform for AI developers and enthusiasts to prototype and build secure, agentic AI workflows with Gemma 4. Featuring GB10 Grace Blackwell Superchips and 128 GB of unified memory, DGX Spark enables efficient running of even the largest Gemma 4 models with BF16 weights, maintaining private and secure on-device execution. The vLLM inference engine on DGX Spark further optimizes LLM serving for high throughput. For production deployment, NVIDIA NIM offers prepackaged and optimized microservices, providing a secure, self-hosted solution for enterprises with an NVIDIA Enterprise License. A hosted NIM API is also available in the NVIDIA API catalog for initial prototyping.
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
Developers can customize Gemma 4 models with their unique domain data using the NVIDIA NeMo framework, particularly the NeMo Automodel library. This powerful tool combines the ease of use of native PyTorch with optimized performance, allowing for efficient fine-tuning. Techniques such as supervised fine-tuning (SFT) and memory-efficient LoRA (Low-Rank Adaptation) can be applied directly to Gemma 4 model checkpoints available on Hugging Face, eliminating the need for cumbersome conversions. This enables day-zero fine-tuning, ensuring models are highly relevant and accurate for specialized applications and datasets, enhancing their utility across various industry verticals.
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Gemma 4 models are made highly accessible to developers and enterprises through the commercial-friendly Apache 2.0 license. This open-source license allows for broad use, modification, and distribution of the models, facilitating their integration into various commercial products and services without restrictive licensing fees. Furthermore, NVIDIA ensures wide availability across its entire AI platform, from Blackwell data centers to Jetson edge devices. Developers can get started immediately by accessing model checkpoints on Hugging Face, utilizing NVIDIA's extensive documentation and tutorials, and leveraging tools like vLLM, Ollama, and NeMo for deployment and customization, making advanced AI readily available for innovation.

Manteniu-vos al dia

Rebeu les últimes notícies d'IA al correu.

Compartir