Code Velocity
Modèles d'IA

Gemma 4 : Mettre l'IA à l'échelle du centre de données à la périphérie avec NVIDIA

·5 min de lecture·NVIDIA·Source originale
Partager
Modèles NVIDIA Gemma 4 permettant l'IA sur les appareils périphériques et les centres de données

Le paysage de l'intelligence artificielle évolue rapidement, avec une demande croissante de déployer des modèles d'IA avancés non seulement dans les centres de données cloud, mais aussi à la périphérie même des réseaux et directement sur les appareils des utilisateurs. Ce changement est motivé par le besoin d'une latence plus faible, d'une confidentialité améliorée, de coûts opérationnels réduits et de la capacité à fonctionner dans des environnements à connectivité limitée. Pour répondre à ces exigences critiques, NVIDIA et Google ont collaboré pour introduire les derniers modèles multimodaux et multilingues Gemma 4, conçus pour s'adapter de manière transparente des centres de données NVIDIA Blackwell les plus puissants aux appareils périphériques Jetson compacts.

Ces modèles représentent un bond significatif en termes d'efficacité et de précision, ce qui en fait des outils polyvalents pour un large éventail de tâches d'IA courantes. La famille Gemma 4 est prête à redéfinir la manière dont l'IA est intégrée dans les applications quotidiennes, offrant des capacités qui repoussent les limites de ce qui est possible en matière de déploiement d'IA local.

Gemma 4 : Faire progresser l'IA multimodale et multilingue

Le Gemmaverse s'est étendu avec l'introduction de quatre nouveaux modèles Gemma 4, chacun conçu avec des scénarios de déploiement spécifiques à l'esprit tout en offrant un ensemble robuste de capacités. Ces modèles ne sont pas seulement une question de taille ; il s'agit d'une conception intelligente, offrant de solides performances face à divers défis d'IA.

Les principales capacités des modèles Gemma 4 incluent :

  • Raisonnement : Performances exceptionnelles sur les tâches complexes de résolution de problèmes, permettant une prise de décision plus sophistiquée.
  • Codage : Fonctionnalités avancées de génération et de débogage de code, simplifiant les workflows des développeurs.
  • Agents : Prise en charge native de l'utilisation structurée d'outils, facilitant la création de systèmes d'IA agentiques puissants.
  • Capacité Vision, Audio et Vidéo : Interactions multimodales riches pour des cas d'utilisation tels que la reconnaissance d'objets, la reconnaissance vocale automatique (ASR), l'intelligence documentaire et vidéo.
  • Entrée Multimodale Entrelacée : La capacité de mélanger librement du texte et des images dans une seule invite, offrant une interaction plus naturelle et complète.
  • Support Multilingue : Prise en charge prête à l'emploi de plus de 35 langues, avec un pré-entraînement sur plus de 140 langues, élargissant l'accessibilité mondiale.

La famille Gemma 4 inclut le premier modèle Mixture-of-Experts (MoE) de la série Gemma, optimisé pour l'efficacité. Remarquablement, les quatre modèles peuvent tenir sur un seul GPU NVIDIA H100, démontrant leur conception optimisée. Les variantes 31B et 26B A4B sont des modèles de raisonnement très performants adaptés aux environnements locaux et de centre de données, tandis que les modèles E4B et E2B sont spécifiquement conçus pour les applications sur appareil et mobiles, s'appuyant sur l'héritage de Gemma 3n.

Nom du modèleType d'architectureParamètres totauxParamètres actifs ou effectifsLongueur du contexte d'entrée (Tokens)Fenêtre glissante (Tokens)Modalités
Gemma-4-31BTransformateur Dense31B256K1024Texte
Gemma-4-26B-A4BMoE – 128 Experts26B3.8B256KTexte
Gemma-4-E4BTransformateur Dense7.9B avec embeddings4.5B effectifs128K512Texte, Audio, Vision, Vidéo
Gemma-4-E2BTransformateur Dense5.1B avec embeddings2.3B effectifs128K512Texte, Audio, Vision, Vidéo

*Tableau 1. Aperçu de la famille de modèles Gemma 4, résumant les types d'architecture, les tailles de paramètres, les paramètres effectifs, les longueurs de contexte prises en charge et les modalités disponibles pour aider les développeurs à choisir le bon modèle pour les déploiements en centre de données, en périphérie et sur appareil.

Ces modèles sont disponibles sur Hugging Face avec des checkpoints BF16. Pour les développeurs utilisant des GPU NVIDIA Blackwell, un checkpoint quantifié NVFP4 pour Gemma-4-31B est disponible via NVIDIA Model Optimizer pour une utilisation avec vLLM. La précision NVFP4 maintient une précision quasi identique à celle de 8 bits tout en améliorant considérablement les performances par watt et en réduisant le coût par token, ce qui est critique pour les déploiements à grande échelle.

Porter l'IA à la périphérie : Déploiement sur appareil avec le matériel NVIDIA

Alors que les workflows et agents d'IA deviennent de plus en plus essentiels aux opérations quotidiennes, la capacité d'exécuter ces modèles au-delà des environnements de centre de données traditionnels est primordiale. NVIDIA offre un écosystème complet de systèmes clients et périphériques, des puissants gpus comme les GPU RTX aux appareils Jetson spécialisés et DGX Spark, offrant aux développeurs la flexibilité nécessaire pour optimiser les coûts, la latence et la sécurité.

NVIDIA a collaboré avec des frameworks d'inférence de premier plan comme vLLM, Ollama et llama.cpp pour assurer une expérience de déploiement local optimale pour les modèles Gemma 4. De plus, Unsloth offre un support dès le premier jour avec des modèles optimisés et quantifiés, permettant un déploiement local efficace via Unsloth Studio. Ce système de support robuste permet aux développeurs de déployer une IA sophistiquée directement là où elle est le plus nécessaire.

DGX SparkJetsonRTX / RTX PRO
Cas d'utilisationRecherche et prototypage d'IAIA de périphérie et robotiqueApplications de bureau et développement Windows
Points fortsUne pile logicielle NVIDIA AI préinstallée et 128 Go de mémoire unifiée alimentent le prototypage local, l'affinage et les workflows OpenClaw entièrement locauxLatence quasi nulle grâce à des fonctionnalités architecturales telles que le chargement conditionnel de paramètres et les embeddings par couche qui peuvent être mis en cache pour une utilisation mémoire plus rapide et réduite ( plus d'infos)Performances optimisées pour l'inférence locale pour les amateurs, les créateurs et les professionnels
Guide de démarragePlaybooks DGX Spark pour les guides de déploiement vLLM, Ollama, Unsloth et llama.cpp
NeMo Automodel pour le guide d'affinage sur Spark
Jetson AI Lab pour des tutoriels et des conteneurs Gemma personnalisésRTX AI Garage pour les guides Ollama et llama.cpp. Les propriétaires de RTX Pro peuvent également utiliser vLLM.

*Tableau 2. Comparaison des options de déploiement local sur les plateformes NVIDIA, mettant en évidence les cas d'utilisation principaux, les capacités clés et les ressources de démarrage recommandées pour les systèmes DGX Spark, Jetson et RTX / RTX PRO exécutant les modèles Gemma 4.

Construire des workflows agentiques sécurisés et des déploiements prêts pour l'entreprise

Pour les développeurs et passionnés d'IA, le NVIDIA DGX Spark, doté du Superchip GB10 Grace Blackwell et de 128 Go de mémoire unifiée, offre des ressources inégalées. Cette plateforme robuste est idéale pour exécuter le modèle Gemma 4 31B avec des poids BF16, permettant un prototypage efficace et la construction de workflows d'IA agentiques complexes](/fr/operationalizing-agentic-ai-part-1-a-stakeholders-guide) tout en assurant une exécution privée et sécurisée sur l'appareil. Le système d'exploitation DGX Linux et la pile logicielle complète de NVIDIA offrent un environnement de développement fluide.

Le moteur d'inférence vLLM, conçu pour le service LLM à haut débit, maximise l'efficacité et minimise l'utilisation de la mémoire sur DGX Spark. Cette combinaison offre une plateforme haute performance pour le déploiement des plus grands modèles Gemma 4. Les développeurs peuvent tirer parti du playbook vLLM for Inference DGX Spark ou commencer avec Ollama ou llama.cpp. De plus, le NeMo Automodel permet d'affiner ces modèles directement sur DGX Spark.

Pour les utilisateurs d'entreprise, NVIDIA NIM offre une voie vers un déploiement prêt pour la production. Les développeurs peuvent prototyper Gemma 4 31B en utilisant une API NIM hébergée par NVIDIA à partir du catalogue d'API NVIDIA. Pour une production à grande échelle, des microservices NIM pré-emballés et optimisés sont disponibles pour un déploiement sécurisé et auto-hébergé, pris en charge par une licence NVIDIA Enterprise. Cela garantit que les entreprises peuvent déployer des solutions d'IA puissantes en toute confiance, répondant à des exigences strictes de sécurité et opérationnelles.

Renforcer les agents d'IA physiques avec NVIDIA Jetson

Les capacités des agents d'IA physiques modernes progressent rapidement, en grande partie grâce aux modèles Gemma 4 intégrant un audio sophistiqué, une perception multimodale et un raisonnement profond. Ces modèles avancés permettent aux systèmes robotiques de dépasser la simple exécution de tâches, leur conférant la capacité de comprendre la parole, d'interpréter le contexte visuel et de raisonner intelligemment avant d'agir.

Sur les plateformes NVIDIA Jetson, les développeurs peuvent effectuer l'inférence Gemma 4 en périphérie en utilisant llama.cpp et vLLM. Le Jetson Orin Nano, par exemple, prend en charge les variantes Gemma 4 E2B et E4B, facilitant l'inférence multimodale sur des systèmes petits, embarqués et à contrainte de puissance. Cette capacité de mise à l'échelle s'étend à l'ensemble de la plateforme Jetson, jusqu'au formidable Jetson Thor, permettant un déploiement de modèle cohérent quelle que soit l'empreinte matérielle. Ceci est crucial pour les applications en robotique, les machines intelligentes et l'automatisation industrielle où la performance à faible latence et l'intelligence sur appareil sont primordiales. Les développeurs intéressés par l'exploration de ces capacités peuvent trouver des tutoriels et des conteneurs Gemma personnalisés sur le Jetson AI Lab.

Personnalisation et accessibilité commerciale avec NVIDIA NeMo

Pour garantir que les modèles Gemma 4 puissent être adaptés à des applications spécifiques et à des ensembles de données propriétaires, NVIDIA offre de solides capacités d'affinage via le framework NVIDIA NeMo. La bibliothèque NeMo Automodel, en particulier, combine la facilité d'utilisation de PyTorch natif avec des performances optimisées, rendant le processus de personnalisation accessible et efficace.

Les développeurs peuvent exploiter des techniques telles que l'affinage supervisé (SFT) et le LoRA (Low-Rank Adaptation) économe en mémoire pour effectuer un affinage dès le premier jour. Ce processus commence directement à partir des checkpoints des modèles Gemma 4 disponibles sur Hugging Face, éliminant le besoin d'étapes de conversion fastidieuses. Cette flexibilité permet aux entreprises et aux chercheurs d'enrichir les modèles Gemma 4 avec des connaissances spécifiques au domaine, garantissant une grande précision et pertinence pour les tâches spécialisées.

Les modèles Gemma 4 sont facilement disponibles sur l'ensemble de la plateforme NVIDIA AI et sont proposés sous la licence Apache 2.0, favorable au commerce. Cette licence open source facilite l'adoption et l'intégration généralisées dans les produits et services commerciaux, permettant aux développeurs du monde entier d'innover avec une IA de pointe. Des performances de Blackwell à l'omniprésence des plateformes Jetson, Gemma 4 est prête à rapprocher l'IA avancée de chaque développeur et de chaque appareil.

Questions Fréquentes

What is Gemma 4 and what are its key advancements for AI deployment?
Gemma 4 represents the latest generation of multimodal and multilingual AI models from Google, designed for broad deployment across the entire NVIDIA hardware spectrum, from powerful Blackwell data centers to compact Jetson edge devices. Its key advancements include significantly improved efficiency and accuracy, making it suitable for diverse tasks like complex problem-solving, code generation, and agent tool use. These models boast rich multimodal capabilities, supporting interleaved text and images, and are pre-trained on over 140 languages. This versatility and scalability address the growing demand for local, secure, cost-efficient, and low-latency AI applications, pushing intelligence closer to the source of data and action.
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
Gemma 4 is specifically optimized to enable robust on-device and edge AI deployments, crucial for applications requiring low latency, enhanced privacy, and reduced operational costs. NVIDIA's comprehensive suite of client and edge systems—including RTX GPUs, DGX Spark, and Jetson devices—provides the necessary flexibility and performance. For instance, Jetson platforms support Gemma 4 E2B and E4B variants for multimodal inference on power-constrained embedded systems, while RTX GPUs offer optimized performance for local inference on desktops. Collaborations with vLLM, Ollama, llama.cpp, and Unsloth ensure efficient local deployment experiences across these diverse platforms, empowering developers to integrate advanced AI directly into their applications and devices.
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
NVIDIA DGX Spark provides a powerful platform for AI developers and enthusiasts to prototype and build secure, agentic AI workflows with Gemma 4. Featuring GB10 Grace Blackwell Superchips and 128 GB of unified memory, DGX Spark enables efficient running of even the largest Gemma 4 models with BF16 weights, maintaining private and secure on-device execution. The vLLM inference engine on DGX Spark further optimizes LLM serving for high throughput. For production deployment, NVIDIA NIM offers prepackaged and optimized microservices, providing a secure, self-hosted solution for enterprises with an NVIDIA Enterprise License. A hosted NIM API is also available in the NVIDIA API catalog for initial prototyping.
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
Developers can customize Gemma 4 models with their unique domain data using the NVIDIA NeMo framework, particularly the NeMo Automodel library. This powerful tool combines the ease of use of native PyTorch with optimized performance, allowing for efficient fine-tuning. Techniques such as supervised fine-tuning (SFT) and memory-efficient LoRA (Low-Rank Adaptation) can be applied directly to Gemma 4 model checkpoints available on Hugging Face, eliminating the need for cumbersome conversions. This enables day-zero fine-tuning, ensuring models are highly relevant and accurate for specialized applications and datasets, enhancing their utility across various industry verticals.
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Gemma 4 models are made highly accessible to developers and enterprises through the commercial-friendly Apache 2.0 license. This open-source license allows for broad use, modification, and distribution of the models, facilitating their integration into various commercial products and services without restrictive licensing fees. Furthermore, NVIDIA ensures wide availability across its entire AI platform, from Blackwell data centers to Jetson edge devices. Developers can get started immediately by accessing model checkpoints on Hugging Face, utilizing NVIDIA's extensive documentation and tutorials, and leveraging tools like vLLM, Ollama, and NeMo for deployment and customization, making advanced AI readily available for innovation.

Restez informé

Recevez les dernières actualités IA dans votre boîte mail.

Partager