Resultats de benchmarks de Gemini 3.1 Pro
Google DeepMind va llançar Gemini 3.1 Pro el 19 de febrer de 2026. El model més que duplica el rendiment de raonament del seu predecessor, obtenint un 77,1% a ARC-AGI-2 respecte a Gemini 3 Pro.
Gemini 3.1 Pro apunta a tasques que requereixen raonament de múltiples passos: disseny d'algorismes, síntesi de dades a gran escala, fluxos de treball agèntics i codi complex.
Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2
| Benchmark | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2-Codex |
|---|---|---|---|
| ARC-AGI-2 | 77,1% | — | — |
| RE-Bench (R+D ML) | 1,27 | — | — |
| Terminal-Bench 2.0 | — | #1 | 64,0% |
| Humanity's Last Exam | — | #1 | — |
| Context (entrada) | 1M | 200K (1M beta) | 400K |
| Context (sortida) | 64K | 128K | 128K |
Cada model lidera en àrees diferents. Gemini 3.1 Pro encapçala els benchmarks de raonament novedós. Claude Opus 4.6 lidera el codi agèntic i el raonament multidisciplinari. GPT-5.2-Codex ofereix rendiment competitiu en codi a preus més baixos.
Funcionalitats clau per a desenvolupadors
Profunditat de pensament configurable
Gemini 3.1 Pro introdueix un paràmetre thinking_level que controla la profunditat del raonament. El pensament baix és ràpid i econòmic per a tasques rutinàries. El pensament alt aplica més computació als problemes complexos.
Això és similar als controls d'esforç de Claude Opus 4.6, tot i que Gemini exposa la configuració com un paràmetre d'API explícit en lloc d'un comportament adaptatiu del model.
Endpoint d'eines personalitzades
Un endpoint separat, gemini-3.1-pro-preview-customtools, està optimitzat per a aplicacions agèntiques que combinen comandes de shell amb eines personalitzades. Prioritza la selecció i invocació correcta d'eines, reduint errors quan els agents interactuen amb sistemes externs. Això és rellevant per als desenvolupadors que construeixen agents similars als GitHub Agentic Workflows, on la precisió en la selecció d'eines afecta directament la fiabilitat de l'automatització.
Entrada d'URL de YouTube
Els desenvolupadors poden passar URLs de YouTube directament als prompts. El model analitza el contingut de vídeo, permetent fluxos de treball que combinen la comprensió de vídeo amb generació de codi o documentació.
Processament multimodal
Gemini 3.1 Pro gestiona text, imatges, àudio, vídeo i codi en un sol context. Amb una finestra d'entrada d'1M de tokens, pot processar codis sencers o documents de recerca llargs en una sola passada.
RE-Bench: rendiment en recerca de ML
A RE-Bench, que avalua les capacitats de recerca i desenvolupament en aprenentatge automàtic, Gemini 3.1 Pro obté una puntuació d'1,27 (normalitzada respecte a humans), pujant des de l'1,04 de Gemini 3 Pro. El model va completar tasques d'optimització en 47 segons respecte als 94 segons de referència humana.
Disponibilitat de Gemini 3.1 Pro
Gemini 3.1 Pro està disponible a l'app Gemini, Google Cloud Vertex AI, Google AI Studio i l'API de Gemini. Els preus varien per plataforma. El model està en preview; la disponibilitat general s'espera aviat.
Preguntes freqüents
Què és Gemini 3.1 Pro?
Com es compara Gemini 3.1 Pro amb Claude Opus 4.6?
Què és el paràmetre thinking_level a Gemini 3.1 Pro?
Què és l'endpoint d'eines personalitzades a Gemini 3.1 Pro?
Manteniu-vos al dia
Rebeu les últimes notícies d'IA al correu.
