Code Velocity
Models d'IA

Gemini 3.1 Pro: el model centrat en raonament de Google

·6 min de lectura·Google, Google DeepMind·Font original
Compartir
Comparació de benchmarks de Gemini 3.1 Pro mostrant puntuacions d'ARC-AGI-2 i RE-Bench versus Gemini 3 Pro i altres models de frontera

Resultats de benchmarks de Gemini 3.1 Pro

Google DeepMind va llançar Gemini 3.1 Pro el 19 de febrer de 2026. El model més que duplica el rendiment de raonament del seu predecessor, obtenint un 77,1% a ARC-AGI-2 respecte a Gemini 3 Pro.

Gemini 3.1 Pro apunta a tasques que requereixen raonament de múltiples passos: disseny d'algorismes, síntesi de dades a gran escala, fluxos de treball agèntics i codi complex.

Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2

BenchmarkGemini 3.1 ProClaude Opus 4.6GPT-5.2-Codex
ARC-AGI-277,1%
RE-Bench (R+D ML)1,27
Terminal-Bench 2.0#164,0%
Humanity's Last Exam#1
Context (entrada)1M200K (1M beta)400K
Context (sortida)64K128K128K

Cada model lidera en àrees diferents. Gemini 3.1 Pro encapçala els benchmarks de raonament novedós. Claude Opus 4.6 lidera el codi agèntic i el raonament multidisciplinari. GPT-5.2-Codex ofereix rendiment competitiu en codi a preus més baixos.

Funcionalitats clau per a desenvolupadors

Profunditat de pensament configurable

Gemini 3.1 Pro introdueix un paràmetre thinking_level que controla la profunditat del raonament. El pensament baix és ràpid i econòmic per a tasques rutinàries. El pensament alt aplica més computació als problemes complexos.

Això és similar als controls d'esforç de Claude Opus 4.6, tot i que Gemini exposa la configuració com un paràmetre d'API explícit en lloc d'un comportament adaptatiu del model.

Endpoint d'eines personalitzades

Un endpoint separat, gemini-3.1-pro-preview-customtools, està optimitzat per a aplicacions agèntiques que combinen comandes de shell amb eines personalitzades. Prioritza la selecció i invocació correcta d'eines, reduint errors quan els agents interactuen amb sistemes externs. Això és rellevant per als desenvolupadors que construeixen agents similars als GitHub Agentic Workflows, on la precisió en la selecció d'eines afecta directament la fiabilitat de l'automatització.

Entrada d'URL de YouTube

Els desenvolupadors poden passar URLs de YouTube directament als prompts. El model analitza el contingut de vídeo, permetent fluxos de treball que combinen la comprensió de vídeo amb generació de codi o documentació.

Processament multimodal

Gemini 3.1 Pro gestiona text, imatges, àudio, vídeo i codi en un sol context. Amb una finestra d'entrada d'1M de tokens, pot processar codis sencers o documents de recerca llargs en una sola passada.

RE-Bench: rendiment en recerca de ML

A RE-Bench, que avalua les capacitats de recerca i desenvolupament en aprenentatge automàtic, Gemini 3.1 Pro obté una puntuació d'1,27 (normalitzada respecte a humans), pujant des de l'1,04 de Gemini 3 Pro. El model va completar tasques d'optimització en 47 segons respecte als 94 segons de referència humana.

Disponibilitat de Gemini 3.1 Pro

Gemini 3.1 Pro està disponible a l'app Gemini, Google Cloud Vertex AI, Google AI Studio i l'API de Gemini. Els preus varien per plataforma. El model està en preview; la disponibilitat general s'espera aviat.

Preguntes freqüents

Què és Gemini 3.1 Pro?
Gemini 3.1 Pro és l'actualització optimitzada per a raonament de la sèrie Gemini 3 de Google DeepMind, llançada el 19 de febrer de 2026. Obté un 77,1% a ARC-AGI-2, més que duplicant el rendiment de raonament de Gemini 3 Pro. El model suporta un context d'entrada d'1M de tokens i 64K de sortida, i introdueix un paràmetre thinking_level que permet als desenvolupadors controlar la profunditat del raonament del model abans de respondre.
Com es compara Gemini 3.1 Pro amb Claude Opus 4.6?
Gemini 3.1 Pro i Claude Opus 4.6 apunten a fortaleses diferents. Gemini 3.1 Pro lidera a ARC-AGI-2 (77,1%) i RE-Bench per a R+D d'aprenentatge automàtic, mentre que Claude Opus 4.6 manté la posició capdavantera a Terminal-Bench 2.0 per a codi agèntic i Humanity's Last Exam per a raonament multidisciplinari. Ambdós ofereixen finestres de context d'1M de tokens. L'elecció depèn de la càrrega de treball: Gemini destaca en tasques de raonament noves, Claude en treball de codi sostingut.
Què és el paràmetre thinking_level a Gemini 3.1 Pro?
El paràmetre thinking_level permet als desenvolupadors controlar la profunditat màxima de raonament que el model aplica abans de produir una resposta. El pensament baix és més ràpid i econòmic per a tasques senzilles. El pensament alt destina més temps de computació a problemes de raonament complexos. Això dóna als desenvolupadors un control explícit sobre la relació cost-velocitat-qualitat, similar als controls d'esforç de Claude Opus 4.6.
Què és l'endpoint d'eines personalitzades a Gemini 3.1 Pro?
Gemini 3.1 Pro inclou un endpoint d'API separat anomenat gemini-3.1-pro-preview-customtools, optimitzat per prioritzar les eines personalitzades dels desenvolupadors. Quan es construeixen aplicacions agèntiques amb una combinació de comandes de shell i eines personalitzades, aquest endpoint assegura que el model seleccioni i invoqui correctament l'eina adequada. Això és especialment útil per als desenvolupadors que construeixen agents d'IA que necessiten interactuar amb sistemes i APIs externs.

Manteniu-vos al dia

Rebeu les últimes notícies d'IA al correu.

Compartir