Le paysage de l'intelligence artificielle évolue rapidement, avec une demande croissante de déployer des modèles d'IA avancés non seulement dans les centres de données cloud, mais aussi à la périphérie même des réseaux et directement sur les appareils des utilisateurs. Ce changement est motivé par le besoin d'une latence plus faible, d'une confidentialité améliorée, de coûts opérationnels réduits et de la capacité à fonctionner dans des environnements à connectivité limitée. Pour répondre à ces exigences critiques, NVIDIA et Google ont collaboré pour introduire les derniers modèles multimodaux et multilingues Gemma 4, conçus pour s'adapter de manière transparente des centres de données NVIDIA Blackwell les plus puissants aux appareils périphériques Jetson compacts.
Ces modèles représentent un bond significatif en termes d'efficacité et de précision, ce qui en fait des outils polyvalents pour un large éventail de tâches d'IA courantes. La famille Gemma 4 est prête à redéfinir la manière dont l'IA est intégrée dans les applications quotidiennes, offrant des capacités qui repoussent les limites de ce qui est possible en matière de déploiement d'IA local.
Gemma 4 : Faire progresser l'IA multimodale et multilingue
Le Gemmaverse s'est étendu avec l'introduction de quatre nouveaux modèles Gemma 4, chacun conçu avec des scénarios de déploiement spécifiques à l'esprit tout en offrant un ensemble robuste de capacités. Ces modèles ne sont pas seulement une question de taille ; il s'agit d'une conception intelligente, offrant de solides performances face à divers défis d'IA.
Les principales capacités des modèles Gemma 4 incluent :
- Raisonnement : Performances exceptionnelles sur les tâches complexes de résolution de problèmes, permettant une prise de décision plus sophistiquée.
- Codage : Fonctionnalités avancées de génération et de débogage de code, simplifiant les workflows des développeurs.
- Agents : Prise en charge native de l'utilisation structurée d'outils, facilitant la création de systèmes d'IA agentiques puissants.
- Capacité Vision, Audio et Vidéo : Interactions multimodales riches pour des cas d'utilisation tels que la reconnaissance d'objets, la reconnaissance vocale automatique (ASR), l'intelligence documentaire et vidéo.
- Entrée Multimodale Entrelacée : La capacité de mélanger librement du texte et des images dans une seule invite, offrant une interaction plus naturelle et complète.
- Support Multilingue : Prise en charge prête à l'emploi de plus de 35 langues, avec un pré-entraînement sur plus de 140 langues, élargissant l'accessibilité mondiale.
La famille Gemma 4 inclut le premier modèle Mixture-of-Experts (MoE) de la série Gemma, optimisé pour l'efficacité. Remarquablement, les quatre modèles peuvent tenir sur un seul GPU NVIDIA H100, démontrant leur conception optimisée. Les variantes 31B et 26B A4B sont des modèles de raisonnement très performants adaptés aux environnements locaux et de centre de données, tandis que les modèles E4B et E2B sont spécifiquement conçus pour les applications sur appareil et mobiles, s'appuyant sur l'héritage de Gemma 3n.
| Nom du modèle | Type d'architecture | Paramètres totaux | Paramètres actifs ou effectifs | Longueur du contexte d'entrée (Tokens) | Fenêtre glissante (Tokens) | Modalités |
|---|---|---|---|---|---|---|
| Gemma-4-31B | Transformateur Dense | 31B | — | 256K | 1024 | Texte |
| Gemma-4-26B-A4B | MoE – 128 Experts | 26B | 3.8B | 256K | — | Texte |
| Gemma-4-E4B | Transformateur Dense | 7.9B avec embeddings | 4.5B effectifs | 128K | 512 | Texte, Audio, Vision, Vidéo |
| Gemma-4-E2B | Transformateur Dense | 5.1B avec embeddings | 2.3B effectifs | 128K | 512 | Texte, Audio, Vision, Vidéo |
*Tableau 1. Aperçu de la famille de modèles Gemma 4, résumant les types d'architecture, les tailles de paramètres, les paramètres effectifs, les longueurs de contexte prises en charge et les modalités disponibles pour aider les développeurs à choisir le bon modèle pour les déploiements en centre de données, en périphérie et sur appareil.
Ces modèles sont disponibles sur Hugging Face avec des checkpoints BF16. Pour les développeurs utilisant des GPU NVIDIA Blackwell, un checkpoint quantifié NVFP4 pour Gemma-4-31B est disponible via NVIDIA Model Optimizer pour une utilisation avec vLLM. La précision NVFP4 maintient une précision quasi identique à celle de 8 bits tout en améliorant considérablement les performances par watt et en réduisant le coût par token, ce qui est critique pour les déploiements à grande échelle.
Porter l'IA à la périphérie : Déploiement sur appareil avec le matériel NVIDIA
Alors que les workflows et agents d'IA deviennent de plus en plus essentiels aux opérations quotidiennes, la capacité d'exécuter ces modèles au-delà des environnements de centre de données traditionnels est primordiale. NVIDIA offre un écosystème complet de systèmes clients et périphériques, des puissants gpus comme les GPU RTX aux appareils Jetson spécialisés et DGX Spark, offrant aux développeurs la flexibilité nécessaire pour optimiser les coûts, la latence et la sécurité.
NVIDIA a collaboré avec des frameworks d'inférence de premier plan comme vLLM, Ollama et llama.cpp pour assurer une expérience de déploiement local optimale pour les modèles Gemma 4. De plus, Unsloth offre un support dès le premier jour avec des modèles optimisés et quantifiés, permettant un déploiement local efficace via Unsloth Studio. Ce système de support robuste permet aux développeurs de déployer une IA sophistiquée directement là où elle est le plus nécessaire.
| DGX Spark | Jetson | RTX / RTX PRO | |
|---|---|---|---|
| Cas d'utilisation | Recherche et prototypage d'IA | IA de périphérie et robotique | Applications de bureau et développement Windows |
| Points forts | Une pile logicielle NVIDIA AI préinstallée et 128 Go de mémoire unifiée alimentent le prototypage local, l'affinage et les workflows OpenClaw entièrement locaux | Latence quasi nulle grâce à des fonctionnalités architecturales telles que le chargement conditionnel de paramètres et les embeddings par couche qui peuvent être mis en cache pour une utilisation mémoire plus rapide et réduite ( plus d'infos) | Performances optimisées pour l'inférence locale pour les amateurs, les créateurs et les professionnels |
| Guide de démarrage | Playbooks DGX Spark pour les guides de déploiement vLLM, Ollama, Unsloth et llama.cpp NeMo Automodel pour le guide d'affinage sur Spark | Jetson AI Lab pour des tutoriels et des conteneurs Gemma personnalisés | RTX AI Garage pour les guides Ollama et llama.cpp. Les propriétaires de RTX Pro peuvent également utiliser vLLM. |
*Tableau 2. Comparaison des options de déploiement local sur les plateformes NVIDIA, mettant en évidence les cas d'utilisation principaux, les capacités clés et les ressources de démarrage recommandées pour les systèmes DGX Spark, Jetson et RTX / RTX PRO exécutant les modèles Gemma 4.
Construire des workflows agentiques sécurisés et des déploiements prêts pour l'entreprise
Pour les développeurs et passionnés d'IA, le NVIDIA DGX Spark, doté du Superchip GB10 Grace Blackwell et de 128 Go de mémoire unifiée, offre des ressources inégalées. Cette plateforme robuste est idéale pour exécuter le modèle Gemma 4 31B avec des poids BF16, permettant un prototypage efficace et la construction de workflows d'IA agentiques complexes](/fr/operationalizing-agentic-ai-part-1-a-stakeholders-guide) tout en assurant une exécution privée et sécurisée sur l'appareil. Le système d'exploitation DGX Linux et la pile logicielle complète de NVIDIA offrent un environnement de développement fluide.
Le moteur d'inférence vLLM, conçu pour le service LLM à haut débit, maximise l'efficacité et minimise l'utilisation de la mémoire sur DGX Spark. Cette combinaison offre une plateforme haute performance pour le déploiement des plus grands modèles Gemma 4. Les développeurs peuvent tirer parti du playbook vLLM for Inference DGX Spark ou commencer avec Ollama ou llama.cpp. De plus, le NeMo Automodel permet d'affiner ces modèles directement sur DGX Spark.
Pour les utilisateurs d'entreprise, NVIDIA NIM offre une voie vers un déploiement prêt pour la production. Les développeurs peuvent prototyper Gemma 4 31B en utilisant une API NIM hébergée par NVIDIA à partir du catalogue d'API NVIDIA. Pour une production à grande échelle, des microservices NIM pré-emballés et optimisés sont disponibles pour un déploiement sécurisé et auto-hébergé, pris en charge par une licence NVIDIA Enterprise. Cela garantit que les entreprises peuvent déployer des solutions d'IA puissantes en toute confiance, répondant à des exigences strictes de sécurité et opérationnelles.
Renforcer les agents d'IA physiques avec NVIDIA Jetson
Les capacités des agents d'IA physiques modernes progressent rapidement, en grande partie grâce aux modèles Gemma 4 intégrant un audio sophistiqué, une perception multimodale et un raisonnement profond. Ces modèles avancés permettent aux systèmes robotiques de dépasser la simple exécution de tâches, leur conférant la capacité de comprendre la parole, d'interpréter le contexte visuel et de raisonner intelligemment avant d'agir.
Sur les plateformes NVIDIA Jetson, les développeurs peuvent effectuer l'inférence Gemma 4 en périphérie en utilisant llama.cpp et vLLM. Le Jetson Orin Nano, par exemple, prend en charge les variantes Gemma 4 E2B et E4B, facilitant l'inférence multimodale sur des systèmes petits, embarqués et à contrainte de puissance. Cette capacité de mise à l'échelle s'étend à l'ensemble de la plateforme Jetson, jusqu'au formidable Jetson Thor, permettant un déploiement de modèle cohérent quelle que soit l'empreinte matérielle. Ceci est crucial pour les applications en robotique, les machines intelligentes et l'automatisation industrielle où la performance à faible latence et l'intelligence sur appareil sont primordiales. Les développeurs intéressés par l'exploration de ces capacités peuvent trouver des tutoriels et des conteneurs Gemma personnalisés sur le Jetson AI Lab.
Personnalisation et accessibilité commerciale avec NVIDIA NeMo
Pour garantir que les modèles Gemma 4 puissent être adaptés à des applications spécifiques et à des ensembles de données propriétaires, NVIDIA offre de solides capacités d'affinage via le framework NVIDIA NeMo. La bibliothèque NeMo Automodel, en particulier, combine la facilité d'utilisation de PyTorch natif avec des performances optimisées, rendant le processus de personnalisation accessible et efficace.
Les développeurs peuvent exploiter des techniques telles que l'affinage supervisé (SFT) et le LoRA (Low-Rank Adaptation) économe en mémoire pour effectuer un affinage dès le premier jour. Ce processus commence directement à partir des checkpoints des modèles Gemma 4 disponibles sur Hugging Face, éliminant le besoin d'étapes de conversion fastidieuses. Cette flexibilité permet aux entreprises et aux chercheurs d'enrichir les modèles Gemma 4 avec des connaissances spécifiques au domaine, garantissant une grande précision et pertinence pour les tâches spécialisées.
Les modèles Gemma 4 sont facilement disponibles sur l'ensemble de la plateforme NVIDIA AI et sont proposés sous la licence Apache 2.0, favorable au commerce. Cette licence open source facilite l'adoption et l'intégration généralisées dans les produits et services commerciaux, permettant aux développeurs du monde entier d'innover avec une IA de pointe. Des performances de Blackwell à l'omniprésence des plateformes Jetson, Gemma 4 est prête à rapprocher l'IA avancée de chaque développeur et de chaque appareil.
Source originale
https://developer.nvidia.com/blog/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4/Questions Fréquentes
What is Gemma 4 and what are its key advancements for AI deployment?
How does Gemma 4 facilitate on-device and edge AI deployments, and which NVIDIA platforms support it?
What role do NVIDIA DGX Spark and NIM play in developing and deploying Gemma 4 models for enterprises?
How can developers fine-tune Gemma 4 models for specific domain data, and what tools are available?
What are the commercial licensing terms for Gemma 4 models, and how accessible are they to developers?
Restez informé
Recevez les dernières actualités IA dans votre boîte mail.
