Gemini 3.1 Pro: El modelo de razonamiento de Google

Resultados de Benchmarks de Gemini 3.1 Pro

Google DeepMind lanzó Gemini 3.1 Pro el 19 de febrero de 2026. El modelo más que duplica el rendimiento de razonamiento de su predecesor, obteniendo un 77.1% en ARC-AGI-2 frente a Gemini 3 Pro.

Gemini 3.1 Pro se enfoca en tareas que requieren razonamiento de múltiples pasos: diseño de algoritmos, síntesis de datos a gran escala, flujos de trabajo agénticos y codificación compleja.

Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2

Benchmark	Gemini 3.1 Pro	Claude Opus 4.6	GPT-5.2-Codex
ARC-AGI-2	77.1%	—	—
RE-Bench (I+D ML)	1.27	—	—
Terminal-Bench 2.0	—	#1	64.0%
Humanity's Last Exam	—	#1	—
Contexto (entrada)	1M	200K (1M beta)	400K
Contexto (salida)	64K	128K	128K

Cada modelo lidera en áreas diferentes. Gemini 3.1 Pro encabeza los benchmarks de razonamiento novedoso. Claude Opus 4.6 lidera en codificación agéntica y razonamiento multidisciplinar. GPT-5.2-Codex ofrece rendimiento de codificación competitivo a menor precio.

Características Clave para Desarrolladores

Profundidad de Pensamiento Configurable

Gemini 3.1 Pro introduce un parámetro thinking_level que controla la profundidad de razonamiento. El pensamiento bajo es rápido y económico para tareas rutinarias. El pensamiento alto aplica más computación a problemas complejos.

Esto es similar a los controles de effort de Claude Opus 4.6, aunque Gemini expone la configuración como un parámetro explícito de API en lugar de comportamiento adaptativo del modelo.

Endpoint de Herramientas Personalizadas

Un endpoint separado, gemini-3.1-pro-preview-customtools, está optimizado para aplicaciones agénticas que combinan comandos shell con herramientas personalizadas. Prioriza la selección e invocación correcta de herramientas, reduciendo errores cuando los agentes interactúan con sistemas externos. Esto es relevante para desarrolladores que construyen agentes similares a GitHub Agentic Workflows, donde la precisión en la selección de herramientas afecta directamente la fiabilidad de la automatización.

Entrada de URL de YouTube

Los desarrolladores pueden pasar URLs de YouTube directamente en los prompts. El modelo analiza el contenido del video, habilitando flujos de trabajo que combinan comprensión de video con generación de código o documentación.

Procesamiento Multimodal

Gemini 3.1 Pro maneja texto, imágenes, audio, video y código en un solo contexto. Con una ventana de entrada de 1M de tokens, puede procesar bases de código completas o documentos de investigación extensos en una sola pasada.

RE-Bench: Rendimiento en Investigación ML

En RE-Bench, que evalúa capacidades de investigación y desarrollo en ML, Gemini 3.1 Pro obtiene 1.27 (normalizado respecto a humanos), frente al 1.04 de Gemini 3 Pro. El modelo completó tareas de optimización en 47 segundos frente a los 94 segundos de referencia humana.

Disponibilidad de Gemini 3.1 Pro

Gemini 3.1 Pro está disponible en la aplicación Gemini, Google Cloud Vertex AI, Google AI Studio y la API de Gemini. Los precios varían según la plataforma. El modelo está en vista previa; se espera la disponibilidad general próximamente.

Preguntas Frecuentes

¿Qué es Gemini 3.1 Pro?

Gemini 3.1 Pro es la actualización optimizada para razonamiento de la serie Gemini 3 de Google DeepMind, lanzada el 19 de febrero de 2026. Obtiene un 77.1% en ARC-AGI-2, más del doble del rendimiento de razonamiento de Gemini 3 Pro. El modelo soporta un contexto de entrada de 1M de tokens y 64K tokens de salida, e introduce un parámetro thinking_level que permite a los desarrolladores controlar la profundidad de razonamiento del modelo antes de responder.

¿Cómo se compara Gemini 3.1 Pro con Claude Opus 4.6?

Gemini 3.1 Pro y Claude Opus 4.6 destacan en áreas diferentes. Gemini 3.1 Pro lidera en ARC-AGI-2 (77.1%) y RE-Bench para I+D en ML, mientras que Claude Opus 4.6 mantiene la primera posición en Terminal-Bench 2.0 para codificación agéntica y Humanity's Last Exam para razonamiento multidisciplinar. Ambos ofrecen ventanas de contexto de 1M de tokens. La elección depende de la carga de trabajo: Gemini destaca en tareas de razonamiento novedoso, Claude en trabajo de codificación sostenido.

¿Qué es el parámetro thinking_level en Gemini 3.1 Pro?

El parámetro thinking_level permite a los desarrolladores controlar la profundidad máxima de razonamiento que el modelo aplica antes de producir una respuesta. El pensamiento bajo es más rápido y económico para tareas sencillas. El pensamiento alto asigna más tiempo de computación para problemas de razonamiento complejo. Esto da a los desarrolladores control explícito sobre el balance entre costo, velocidad y calidad, similar a los controles de effort en Claude Opus 4.6.

¿Qué es el endpoint de herramientas personalizadas en Gemini 3.1 Pro?

Gemini 3.1 Pro incluye un endpoint de API separado llamado gemini-3.1-pro-preview-customtools, optimizado para priorizar herramientas personalizadas de desarrollador. Al construir aplicaciones agénticas con una combinación de comandos bash y herramientas personalizadas, este endpoint asegura que el modelo seleccione e invoque correctamente la herramienta adecuada. Es especialmente útil para desarrolladores que construyen agentes IA que necesitan interactuar con sistemas y APIs externos.