What is Gemma 4 and what are its key advancements for AI deployment?

Gemma 4 represents the latest generation of multimodal and multilingual AI models from Google, designed for broad deployment across the entire NVIDIA hardware spectrum, from powerful Blackwell data centers to compact Jetson edge devices. Its key advancements include significantly improved efficiency and accuracy, making it suitable for diverse tasks like complex problem-solving, code generation, and agent tool use. These models boast rich multimodal capabilities, supporting interleaved text and images, and are pre-trained on over 140 languages. This versatility and scalability address the growing demand for local, secure, cost-efficient, and low-latency AI applications, pushing intelligence closer to the source of data and action.

How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?

Gemma 4 is specifically optimized to enable robust on-device and edge AI deployments, crucial for applications requiring low latency, enhanced privacy, and reduced operational costs. NVIDIA's comprehensive suite of client and edge systems—including RTX GPUs, DGX Spark, and Jetson devices—provides the necessary flexibility and performance. For instance, Jetson platforms support Gemma 4 E2B and E4B variants for multimodal inference on power-constrained embedded systems, while RTX GPUs offer optimized performance for local inference on desktops. Collaborations with vLLM, Ollama, llama.cpp, and Unsloth ensure efficient local deployment experiences across these diverse platforms, empowering developers to integrate advanced AI directly into their applications and devices.

What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?

NVIDIA DGX Spark provides a powerful platform for AI developers and enthusiasts to prototype and build secure, agentic AI workflows with Gemma 4. Featuring GB10 Grace Blackwell Superchips and 128 GB of unified memory, DGX Spark enables efficient running of even the largest Gemma 4 models with BF16 weights, maintaining private and secure on-device execution. The vLLM inference engine on DGX Spark further optimizes LLM serving for high throughput. For production deployment, NVIDIA NIM offers prepackaged and optimized microservices, providing a secure, self-hosted solution for enterprises with an NVIDIA Enterprise License. A hosted NIM API is also available in the NVIDIA API catalog for initial prototyping.

How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?

Developers can customize Gemma 4 models with their unique domain data using the NVIDIA NeMo framework, particularly the NeMo Automodel library. This powerful tool combines the ease of use of native PyTorch with optimized performance, allowing for efficient fine-tuning. Techniques such as supervised fine-tuning (SFT) and memory-efficient LoRA (Low-Rank Adaptation) can be applied directly to Gemma 4 model checkpoints available on Hugging Face, eliminating the need for cumbersome conversions. This enables day-zero fine-tuning, ensuring models are highly relevant and accurate for specialized applications and datasets, enhancing their utility across various industry verticals.

What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?

Gemma 4 models are made highly accessible to developers and enterprises through the commercial-friendly Apache 2.0 license. This open-source license allows for broad use, modification, and distribution of the models, facilitating their integration into various commercial products and services without restrictive licensing fees. Furthermore, NVIDIA ensures wide availability across its entire AI platform, from Blackwell data centers to Jetson edge devices. Developers can get started immediately by accessing model checkpoints on Hugging Face, utilizing NVIDIA's extensive documentation and tutorials, and leveraging tools like vLLM, Ollama, and NeMo for deployment and customization, making advanced AI readily available for innovation.

Gemma 4: Escalando la IA desde el Centro de Datos hasta el Borde con NVIDIA

title: "Gemma 4: Escalando la IA desde el Centro de Datos hasta el Borde con NVIDIA" slug: "bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4" date: "2026-04-05" lang: "es" source: "https://developer.nvidia.com/blog/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4/" category: "Modelos de IA" keywords:

Gemma 4
NVIDIA
IA de Borde
IA en Dispositivo
IA Multimodal
LLMs
Despliegue de IA
Blackwell
Jetson
RTX
vLLM
NeMo meta_description: "Explore Gemma 4, los modelos de IA multimodales y multilingües de NVIDIA diseñados para un despliegue sin interrupciones desde los centros de datos Blackwell hasta los dispositivos de borde Jetson, impulsando aplicaciones seguras y de baja latencia." image: "/images/articles/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4.png" image_alt: "Modelos Gemma 4 de NVIDIA que permiten la IA en dispositivos de borde y centros de datos" quality_score: 94 content_score: 93 seo_score: 95 companies:
NVIDIA schema_type: "NewsArticle" reading_time: 5 faq:
question: "¿Qué es Gemma 4 y cuáles son sus avances clave para el despliegue de IA?" answer: 'Gemma 4 representa la última generación de modelos de IA multimodales y multilingües de Google, diseñados para un despliegue amplio en todo el espectro de hardware de NVIDIA, desde los potentes centros de datos Blackwell hasta los compactos dispositivos de borde Jetson. Sus avances clave incluyen una eficiencia y precisión significativamente mejoradas, lo que los hace adecuados para diversas tareas como la resolución de problemas complejos, la generación de código y el uso de herramientas de agente. Estos modelos cuentan con ricas capacidades multimodales, que soportan texto e imágenes entrelazados, y están pre-entrenados en más de 140 idiomas. Esta versatilidad y escalabilidad abordan la creciente demanda de aplicaciones de IA locales, seguras, rentables y de baja latencia, acercando la inteligencia a la fuente de datos y acción.'
question: "¿Cómo facilita Gemma 4 los despliegues de IA en dispositivos y en el borde, y qué plataformas de NVIDIA lo soportan?" answer: 'Gemma 4 está específicamente optimizado para permitir despliegues robustos de IA en dispositivos y en el borde, crucial para aplicaciones que requieren baja latencia, privacidad mejorada y costos operativos reducidos. El conjunto completo de sistemas de cliente y de borde de NVIDIA —incluyendo GPUs RTX, DGX Spark y dispositivos Jetson— proporciona la flexibilidad y el rendimiento necesarios. Por ejemplo, las plataformas Jetson soportan las variantes Gemma 4 E2B y E4B para inferencia multimodal en sistemas embebidos con restricciones de energía, mientras que las GPUs RTX ofrecen un rendimiento optimizado para inferencia local en escritorios. Las colaboraciones con vLLM, Ollama, llama.cpp y Unsloth aseguran experiencias de despliegue local eficientes a través de estas diversas plataformas, capacitando a los desarrolladores para integrar IA avanzada directamente en sus aplicaciones y dispositivos.'
question: "¿Qué papel juegan NVIDIA DGX Spark y NIM en el desarrollo y despliegue de modelos Gemma 4 para empresas?" answer: 'NVIDIA DGX Spark proporciona una potente plataforma para que los desarrolladores y entusiastas de la IA creen prototipos y flujos de trabajo de IA agentica seguros con Gemma 4. Con Superchips GB10 Grace Blackwell y 128 GB de memoria unificada, DGX Spark permite la ejecución eficiente incluso de los modelos Gemma 4 más grandes con pesos BF16, manteniendo una ejecución privada y segura en el dispositivo. El motor de inferencia vLLM en DGX Spark optimiza aún más el servicio de LLM para un alto rendimiento. Para el despliegue en producción, NVIDIA NIM ofrece microservicios preempaquetados y optimizados, proporcionando una solución segura y autoalojada para empresas con una licencia empresarial de NVIDIA. También hay una API NIM alojada disponible en el catálogo de API de NVIDIA para la creación de prototipos iniciales.'
question: "¿Cómo pueden los desarrolladores ajustar los modelos Gemma 4 para datos de dominio específicos y qué herramientas están disponibles?" answer: 'Los desarrolladores pueden personalizar los modelos Gemma 4 con sus datos de dominio únicos utilizando el marco NVIDIA NeMo, particularmente la biblioteca NeMo Automodel. Esta potente herramienta combina la facilidad de uso de PyTorch nativo con un rendimiento optimizado, lo que permite un ajuste fino eficiente. Técnicas como el ajuste fino supervisado (SFT) y LoRA (Low-Rank Adaptation) de memoria eficiente se pueden aplicar directamente a los puntos de control del modelo Gemma 4 disponibles en Hugging Face, eliminando la necesidad de conversiones engorrosas. Esto permite el ajuste fino desde el primer día, asegurando que los modelos sean altamente relevantes y precisos para aplicaciones y conjuntos de datos especializados, mejorando su utilidad en diversas verticales de la industria.'
question: "¿Cuáles son los términos de licencia comercial para los modelos Gemma 4 y cuán accesibles son para los desarrolladores?" answer: 'Los modelos Gemma 4 son altamente accesibles para desarrolladores y empresas a través de la licencia Apache 2.0, compatible con fines comerciales. Esta licencia de código abierto permite un uso, modificación y distribución amplios de los modelos, facilitando su integración en diversos productos y servicios comerciales sin tarifas de licencia restrictivas. Además, NVIDIA asegura una amplia disponibilidad en toda su plataforma de IA, desde los centros de datos Blackwell hasta los dispositivos de borde Jetson. Los desarrolladores pueden comenzar de inmediato accediendo a los puntos de control del modelo en Hugging Face, utilizando la extensa documentación y tutoriales de NVIDIA, y aprovechando herramientas como vLLM, Ollama y NeMo para el despliegue y la personalización, haciendo que la IA avanzada esté fácilmente disponible para la innovación.'

El panorama de la inteligencia artificial está evolucionando rápidamente, con una creciente demanda de desplegar modelos de IA avanzados no solo en centros de datos en la nube, sino también en el borde de las redes y directamente en los dispositivos de los usuarios. Este cambio está impulsado por la necesidad de una menor latencia, mayor privacidad, costos operativos reducidos y la capacidad de operar en entornos con conectividad limitada. Para abordar estos requisitos críticos, NVIDIA y Google han colaborado para introducir los últimos modelos multimodales y multilingües de Gemma 4, diseñados para escalar sin problemas desde los centros de datos Blackwell más potentes de NVIDIA hasta los dispositivos de borde Jetson compactos.

Estos modelos representan un salto significativo en eficiencia y precisión, lo que los convierte en herramientas versátiles para una amplia gama de tareas comunes de IA. La familia Gemma 4 está preparada para redefinir cómo se integra la IA en las aplicaciones cotidianas, ofreciendo capacidades que superan los límites de lo posible en el despliegue local de IA.

Gemma 4: Avance de la IA Multimodal y Multilingüe

El Gemmaverso se ha expandido con la introducción de cuatro nuevos modelos Gemma 4, cada uno diseñado con escenarios de despliegue específicos en mente, a la vez que ofrece un conjunto robusto de capacidades. Estos modelos no se tratan solo del tamaño; se tratan de un diseño inteligente, que ofrece un gran rendimiento en diversos desafíos de IA.

Las capacidades principales de los modelos Gemma 4 incluyen:

Razonamiento: Rendimiento excepcional en tareas complejas de resolución de problemas, permitiendo una toma de decisiones más sofisticada.
Codificación: Funciones avanzadas de generación y depuración de código, que optimizan los flujos de trabajo de los desarrolladores.
Agentes: Soporte nativo para el uso estructurado de herramientas, facilitando la creación de potentes sistemas de IA agentica.
Capacidad de Visión, Audio y Video: Ricas interacciones multimodales para casos de uso como reconocimiento de objetos, reconocimiento automático de voz (ASR), inteligencia documental y de video.
Entrada Multimodal Entrelazada: La capacidad de mezclar libremente texto e imágenes dentro de una sola instrucción, ofreciendo una interacción más natural y completa.
Soporte Multilingüe: Soporte listo para usar para más de 35 idiomas, con pre-entrenamiento en más de 140 idiomas, ampliando la accesibilidad global.

La familia Gemma 4 incluye el primer modelo de Mezcla de Expertos (MoE) en la serie Gemma, optimizado para la eficiencia. Sorprendentemente, los cuatro modelos pueden caber en una sola GPU NVIDIA H100, lo que demuestra su diseño optimizado. Las variantes 31B y 26B A4B son modelos de razonamiento de alto rendimiento adecuados tanto para entornos locales como de centro de datos, mientras que los modelos E4B y E2B están específicamente adaptados para aplicaciones en dispositivos y móviles, basándose en el legado de Gemma 3n.

Nombre del Modelo	Tipo de Arquitectura	Parámetros Totales	Parámetros Activos o Efectivos	Longitud del Contexto de Entrada (Tokens)	Ventana Deslizante (Tokens)	Modalidades
Gemma-4-31B	Dense Transformer	31B	—	256K	1024	Texto
Gemma-4-26B-A4B	MoE – 128 Experts	26B	3.8B	256K	—	Texto
Gemma-4-E4B	Dense Transformer	7.9B with embeddings	4.5B effective	128K	512	Texto, Audio, Visión, Video
Gemma-4-E2B	Dense Transformer	5.1B with embeddings	2.3B effective	128K	512	Texto, Audio, Visión, Video

Tabla 1. Resumen de la familia de modelos Gemma 4, que resume los tipos de arquitectura, los tamaños de los parámetros, los parámetros efectivos, las longitudes de contexto soportadas y las modalidades disponibles para ayudar a los desarrolladores a elegir el modelo adecuado para despliegues en centros de datos, en el borde y en dispositivos.

Estos modelos están disponibles en Hugging Face con puntos de control BF16. Para los desarrolladores que utilizan GPUs NVIDIA Blackwell, un punto de control cuantificado NVFP4 para Gemma-4-31B está disponible a través de NVIDIA Model Optimizer para usar con vLLM. La precisión NVFP4 mantiene una precisión casi idéntica a la precisión de 8 bits, al tiempo que mejora significativamente el rendimiento por vatio y reduce el costo por token, lo cual es crítico para despliegues a gran escala.

Llevando la IA al Borde: Despliegue en Dispositivos con Hardware NVIDIA

A medida que los flujos de trabajo y los agentes de IA se vuelven cada vez más integrales para las operaciones diarias, la capacidad de ejecutar estos modelos más allá de los entornos tradicionales de los centros de datos es primordial. NVIDIA ofrece un ecosistema completo de sistemas de cliente y de borde, desde potentes gpus como las GPUs RTX hasta dispositivos Jetson especializados y DGX Spark, proporcionando a los desarrolladores la flexibilidad necesaria para optimizar el costo, la latencia y la seguridad.

NVIDIA ha colaborado con frameworks de inferencia líderes como vLLM, Ollama y llama.cpp para asegurar una experiencia óptima de despliegue local para los modelos Gemma 4. Además, Unsloth ofrece soporte desde el primer día con modelos optimizados y cuantificados, permitiendo un despliegue local eficiente a través de Unsloth Studio. Este robusto sistema de soporte capacita a los desarrolladores para desplegar IA sofisticada directamente donde más se necesita.

	DGX Spark	Jetson	RTX / RTX PRO
Caso de Uso	Investigación y prototipado de IA	IA de borde y robótica	Aplicaciones de escritorio y desarrollo de Windows
Aspectos Destacados	Una pila de software de IA de NVIDIA preinstalada y 128 GB de memoria unificada potencian el prototipado local, el ajuste fino y los flujos de trabajo de OpenClaw completamente locales	Latencia casi nula debido a características de arquitectura como la carga condicional de parámetros y las incrustaciones por capa que se pueden almacenar en caché para un uso más rápido y reducido de memoria ( más información)	Rendimiento optimizado para inferencia local para aficionados, creadores y profesionales
Guía de Inicio	Playbooks de DGX Spark para guías de despliegue de vLLM, Ollama, Unsloth y llama.cpp NeMo Automodel para guía de ajuste fino en Spark	Jetson AI Lab para tutoriales y contenedores Gemma personalizados	RTX AI Garage para guías de Ollama y llama.cpp. Los propietarios de RTX Pro también pueden usar vLLM.

Tabla 2. Comparación de opciones de despliegue local en plataformas NVIDIA, destacando los casos de uso principales, las capacidades clave y los recursos recomendados para empezar con sistemas DGX Spark, Jetson y RTX / RTX PRO que ejecutan modelos Gemma 4.

Construyendo Flujos de Trabajo Agénticos Seguros y Despliegues Preparados para Empresas

Para los desarrolladores y entusiastas de la IA, el NVIDIA DGX Spark, con el Superchip GB10 Grace Blackwell y 128 GB de memoria unificada, ofrece recursos inigualables. Esta robusta plataforma es ideal para ejecutar el modelo Gemma 4 31B con pesos BF16, permitiendo un prototipado eficiente y la construcción de complejos flujos de trabajo de IA agéntica mientras se garantiza una ejecución privada y segura en el dispositivo. El sistema operativo DGX Linux y la pila completa de software de NVIDIA proporcionan un entorno de desarrollo sin interrupciones.

El motor de inferencia vLLM, diseñado para el servicio de LLM de alto rendimiento, maximiza la eficiencia y minimiza el uso de memoria en DGX Spark. Esta combinación proporciona una plataforma de alto rendimiento para desplegar los modelos Gemma 4 más grandes. Los desarrolladores pueden aprovechar el playbook de vLLM para Inferencias en DGX Spark o comenzar con Ollama o llama.cpp. Además, NeMo Automodel permite el ajuste fino de estos modelos directamente en DGX Spark.

Para los usuarios empresariales, NVIDIA NIM ofrece un camino hacia el despliegue listo para producción. Los desarrolladores pueden prototipar Gemma 4 31B utilizando una API NIM alojada por NVIDIA desde el catálogo de API de NVIDIA. Para la producción a gran escala, los microservicios NIM preempaquetados y optimizados están disponibles para un despliegue seguro y autoalojado, respaldados por una Licencia Empresarial de NVIDIA. Esto asegura que las empresas puedan desplegar potentes soluciones de IA con confianza, cumpliendo con estrictos requisitos de seguridad y operativos.

Potenciando Agentes de IA Físicos con NVIDIA Jetson

Las capacidades de los agentes de IA físicos modernos están avanzando rápidamente, en gran parte debido a que los modelos Gemma 4 integran audio sofisticado, percepción multimodal y razonamiento profundo. Estos modelos avanzados permiten que los sistemas robóticos vayan más allá de la ejecución de tareas simplistas, otorgándoles la capacidad de comprender el habla, interpretar el contexto visual y razonar de manera inteligente antes de actuar.

En las plataformas NVIDIA Jetson, los desarrolladores pueden realizar inferencia con Gemma 4 en el borde utilizando llama.cpp y vLLM. El Jetson Orin Nano, por ejemplo, es compatible con las variantes Gemma 4 E2B y E4B, facilitando la inferencia multimodal en sistemas pequeños, embebidos y con restricciones de energía. Esta capacidad de escalado se extiende a toda la plataforma Jetson, hasta el formidable Jetson Thor, lo que permite un despliegue consistente del modelo independientemente de la huella de hardware. Esto es crucial para aplicaciones en robótica, máquinas inteligentes y automatización industrial donde el rendimiento de baja latencia y la inteligencia en el dispositivo son primordiales. Los desarrolladores interesados en explorar estas capacidades pueden encontrar tutoriales y contenedores Gemma personalizados en el Jetson AI Lab.

Personalización y Accesibilidad Comercial con NVIDIA NeMo

Para asegurar que los modelos Gemma 4 puedan adaptarse a aplicaciones específicas y conjuntos de datos propietarios, NVIDIA ofrece robustas capacidades de ajuste fino a través del framework NVIDIA NeMo. La biblioteca NeMo Automodel, en particular, combina la facilidad de uso de PyTorch nativo con un rendimiento optimizado, haciendo que el proceso de personalización sea accesible y eficiente.

Los desarrolladores pueden aprovechar técnicas como el ajuste fino supervisado (SFT) y LoRA (Low-Rank Adaptation) con eficiencia de memoria para realizar un ajuste fino desde el primer día. Este proceso comienza directamente desde los puntos de control del modelo Gemma 4 disponibles en Hugging Face, eliminando la necesidad de pasos de conversión engorrosos. Esta flexibilidad permite a las empresas y a los investigadores dotar a los modelos Gemma 4 de conocimiento específico del dominio, asegurando una alta precisión y relevancia para tareas especializadas.

Los modelos Gemma 4 están fácilmente disponibles en toda la plataforma de IA de NVIDIA y se ofrecen bajo la licencia Apache 2.0, compatible con fines comerciales. Esta licencia de código abierto facilita una amplia adopción e integración en productos y servicios comerciales, empoderando a los desarrolladores de todo el mundo para innovar con IA de vanguardia. Desde el rendimiento de Blackwell hasta la ubicuidad de las plataformas Jetson, Gemma 4 está preparada para acercar la IA avanzada a cada desarrollador y a cada dispositivo.