Gemini 3.1 Pro : le modèle de Google axé sur le raisonnement

Résultats des benchmarks de Gemini 3.1 Pro

Google DeepMind a publié Gemini 3.1 Pro le 19 février 2026. Le modèle fait plus que doubler la performance de raisonnement de son prédécesseur, obtenant 77,1 % sur ARC-AGI-2 contre Gemini 3 Pro.

Gemini 3.1 Pro cible les tâches nécessitant un raisonnement multi-étapes : conception d'algorithmes, synthèse de données à grande échelle, workflows agentiques et codage complexe.

Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2

Benchmark	Gemini 3.1 Pro	Claude Opus 4.6	GPT-5.2-Codex
ARC-AGI-2	77,1 %	—	—
RE-Bench (R&D ML)	1,27	—	—
Terminal-Bench 2.0	—	#1	64,0 %
Humanity's Last Exam	—	#1	—
Contexte (entrée)	1M	200K (1M bêta)	400K
Contexte (sortie)	64K	128K	128K

Chaque modèle domine dans des domaines différents. Gemini 3.1 Pro mène sur les benchmarks de raisonnement inédit. Claude Opus 4.6 mène en codage agentique et raisonnement multidisciplinaire. GPT-5.2-Codex offre des performances en codage compétitives à un prix inférieur.

Fonctionnalités clés pour les développeurs

Profondeur de réflexion configurable

Gemini 3.1 Pro introduit un paramètre thinking_level contrôlant la profondeur de raisonnement. Un thinking faible est rapide et économique pour les tâches courantes. Un thinking élevé applique davantage de calcul aux problèmes complexes.

C'est similaire aux contrôles d'effort de Claude Opus 4.6, bien que Gemini expose le réglage comme un paramètre API explicite plutôt qu'un comportement adaptatif du modèle.

Endpoint Custom Tools

Un endpoint séparé, gemini-3.1-pro-preview-customtools, est optimisé pour les applications agentiques combinant commandes shell et outils personnalisés. Il priorise la sélection et l'invocation correctes des outils, réduisant les erreurs lorsque les agents interagissent avec des systèmes externes. C'est pertinent pour les développeurs construisant des agents similaires aux GitHub Agentic Workflows, où la précision de la sélection d'outils affecte directement la fiabilité de l'automatisation.

Entrée d'URL YouTube

Les développeurs peuvent passer des URL YouTube directement dans les prompts. Le modèle analyse le contenu vidéo, permettant des workflows combinant compréhension vidéo avec génération de code ou documentation.

Traitement multimodal

Gemini 3.1 Pro traite le texte, les images, l'audio, la vidéo et le code dans un contexte unique. Avec une fenêtre d'entrée de 1M de tokens, il peut traiter des codebases entières ou de longs documents de recherche en une seule passe.

RE-Bench : performance en recherche ML

Sur RE-Bench, qui évalue les capacités de recherche et développement en ML, Gemini 3.1 Pro obtient 1,27 (normalisé humain), contre 1,04 pour Gemini 3 Pro. Le modèle a complété les tâches d'optimisation en 47 secondes contre 94 secondes pour la référence humaine.

Disponibilité de Gemini 3.1 Pro

Gemini 3.1 Pro est disponible dans l'application Gemini, Google Cloud Vertex AI, Google AI Studio et l'API Gemini. La tarification varie selon la plateforme. Le modèle est en preview ; la disponibilité générale devrait suivre.

Questions Fréquentes

Qu'est-ce que Gemini 3.1 Pro ?

Gemini 3.1 Pro est la mise à jour optimisée pour le raisonnement de la série Gemini 3 par Google DeepMind, publiée le 19 février 2026. Il obtient 77,1 % sur ARC-AGI-2, plus du double de la performance de raisonnement de Gemini 3 Pro. Le modèle supporte un contexte de 1M de tokens en entrée et 64K en sortie, et introduit un paramètre thinking_level permettant aux développeurs de contrôler la profondeur de réflexion du modèle avant de répondre.

Comment Gemini 3.1 Pro se compare-t-il à Claude Opus 4.6 ?

Gemini 3.1 Pro et Claude Opus 4.6 ciblent des forces différentes. Gemini 3.1 Pro mène sur ARC-AGI-2 (77,1 %) et RE-Bench pour la R&D en ML, tandis que Claude Opus 4.6 occupe la première place sur Terminal-Bench 2.0 pour le codage agentique et Humanity's Last Exam pour le raisonnement multidisciplinaire. Les deux offrent des fenêtres de contexte de 1M de tokens. Le choix dépend de la charge de travail : Gemini excelle sur les tâches de raisonnement inédit, Claude sur le travail de codage soutenu.

Qu'est-ce que le paramètre thinking_level dans Gemini 3.1 Pro ?

Le paramètre thinking_level permet aux développeurs de contrôler la profondeur maximale de raisonnement du modèle avant de produire une réponse. Un thinking faible est plus rapide et moins coûteux pour les tâches simples. Un thinking élevé alloue plus de temps de calcul aux problèmes de raisonnement complexes. Cela donne aux développeurs un contrôle explicite sur le compromis coût-vitesse-qualité, similaire aux contrôles d'effort de Claude Opus 4.6.

Qu'est-ce que l'endpoint custom tools dans Gemini 3.1 Pro ?

Gemini 3.1 Pro inclut un endpoint API séparé appelé gemini-3.1-pro-preview-customtools, optimisé pour prioriser les outils personnalisés des développeurs. Lors de la construction d'applications agentiques combinant commandes bash et outils personnalisés, cet endpoint garantit que le modèle sélectionne et invoque correctement le bon outil. C'est particulièrement utile pour les développeurs qui construisent des agents IA devant interagir avec des systèmes et API externes.