Résultats des benchmarks de Gemini 3.1 Pro
Google DeepMind a publié Gemini 3.1 Pro le 19 février 2026. Le modèle fait plus que doubler la performance de raisonnement de son prédécesseur, obtenant 77,1 % sur ARC-AGI-2 contre Gemini 3 Pro.
Gemini 3.1 Pro cible les tâches nécessitant un raisonnement multi-étapes : conception d'algorithmes, synthèse de données à grande échelle, workflows agentiques et codage complexe.
Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2
| Benchmark | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2-Codex |
|---|---|---|---|
| ARC-AGI-2 | 77,1 % | — | — |
| RE-Bench (R&D ML) | 1,27 | — | — |
| Terminal-Bench 2.0 | — | #1 | 64,0 % |
| Humanity's Last Exam | — | #1 | — |
| Contexte (entrée) | 1M | 200K (1M bêta) | 400K |
| Contexte (sortie) | 64K | 128K | 128K |
Chaque modèle domine dans des domaines différents. Gemini 3.1 Pro mène sur les benchmarks de raisonnement inédit. Claude Opus 4.6 mène en codage agentique et raisonnement multidisciplinaire. GPT-5.2-Codex offre des performances en codage compétitives à un prix inférieur.
Fonctionnalités clés pour les développeurs
Profondeur de réflexion configurable
Gemini 3.1 Pro introduit un paramètre thinking_level contrôlant la profondeur de raisonnement. Un thinking faible est rapide et économique pour les tâches courantes. Un thinking élevé applique davantage de calcul aux problèmes complexes.
C'est similaire aux contrôles d'effort de Claude Opus 4.6, bien que Gemini expose le réglage comme un paramètre API explicite plutôt qu'un comportement adaptatif du modèle.
Endpoint Custom Tools
Un endpoint séparé, gemini-3.1-pro-preview-customtools, est optimisé pour les applications agentiques combinant commandes shell et outils personnalisés. Il priorise la sélection et l'invocation correctes des outils, réduisant les erreurs lorsque les agents interagissent avec des systèmes externes. C'est pertinent pour les développeurs construisant des agents similaires aux GitHub Agentic Workflows, où la précision de la sélection d'outils affecte directement la fiabilité de l'automatisation.
Entrée d'URL YouTube
Les développeurs peuvent passer des URL YouTube directement dans les prompts. Le modèle analyse le contenu vidéo, permettant des workflows combinant compréhension vidéo avec génération de code ou documentation.
Traitement multimodal
Gemini 3.1 Pro traite le texte, les images, l'audio, la vidéo et le code dans un contexte unique. Avec une fenêtre d'entrée de 1M de tokens, il peut traiter des codebases entières ou de longs documents de recherche en une seule passe.
RE-Bench : performance en recherche ML
Sur RE-Bench, qui évalue les capacités de recherche et développement en ML, Gemini 3.1 Pro obtient 1,27 (normalisé humain), contre 1,04 pour Gemini 3 Pro. Le modèle a complété les tâches d'optimisation en 47 secondes contre 94 secondes pour la référence humaine.
Disponibilité de Gemini 3.1 Pro
Gemini 3.1 Pro est disponible dans l'application Gemini, Google Cloud Vertex AI, Google AI Studio et l'API Gemini. La tarification varie selon la plateforme. Le modèle est en preview ; la disponibilité générale devrait suivre.
Source originale
https://blog.google/technology/google-deepmind/gemini-3-1-pro/Questions Fréquentes
Qu'est-ce que Gemini 3.1 Pro ?
Comment Gemini 3.1 Pro se compare-t-il à Claude Opus 4.6 ?
Qu'est-ce que le paramètre thinking_level dans Gemini 3.1 Pro ?
Qu'est-ce que l'endpoint custom tools dans Gemini 3.1 Pro ?
Restez informé
Recevez les dernières actualités IA dans votre boîte mail.
