Resultados de Benchmarks de Gemini 3.1 Pro
Google DeepMind lanzó Gemini 3.1 Pro el 19 de febrero de 2026. El modelo más que duplica el rendimiento de razonamiento de su predecesor, obteniendo un 77.1% en ARC-AGI-2 frente a Gemini 3 Pro.
Gemini 3.1 Pro se enfoca en tareas que requieren razonamiento de múltiples pasos: diseño de algoritmos, síntesis de datos a gran escala, flujos de trabajo agénticos y codificación compleja.
Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2
| Benchmark | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2-Codex |
|---|---|---|---|
| ARC-AGI-2 | 77.1% | — | — |
| RE-Bench (I+D ML) | 1.27 | — | — |
| Terminal-Bench 2.0 | — | #1 | 64.0% |
| Humanity's Last Exam | — | #1 | — |
| Contexto (entrada) | 1M | 200K (1M beta) | 400K |
| Contexto (salida) | 64K | 128K | 128K |
Cada modelo lidera en áreas diferentes. Gemini 3.1 Pro encabeza los benchmarks de razonamiento novedoso. Claude Opus 4.6 lidera en codificación agéntica y razonamiento multidisciplinar. GPT-5.2-Codex ofrece rendimiento de codificación competitivo a menor precio.
Características Clave para Desarrolladores
Profundidad de Pensamiento Configurable
Gemini 3.1 Pro introduce un parámetro thinking_level que controla la profundidad de razonamiento. El pensamiento bajo es rápido y económico para tareas rutinarias. El pensamiento alto aplica más computación a problemas complejos.
Esto es similar a los controles de effort de Claude Opus 4.6, aunque Gemini expone la configuración como un parámetro explícito de API en lugar de comportamiento adaptativo del modelo.
Endpoint de Herramientas Personalizadas
Un endpoint separado, gemini-3.1-pro-preview-customtools, está optimizado para aplicaciones agénticas que combinan comandos shell con herramientas personalizadas. Prioriza la selección e invocación correcta de herramientas, reduciendo errores cuando los agentes interactúan con sistemas externos. Esto es relevante para desarrolladores que construyen agentes similares a GitHub Agentic Workflows, donde la precisión en la selección de herramientas afecta directamente la fiabilidad de la automatización.
Entrada de URL de YouTube
Los desarrolladores pueden pasar URLs de YouTube directamente en los prompts. El modelo analiza el contenido del video, habilitando flujos de trabajo que combinan comprensión de video con generación de código o documentación.
Procesamiento Multimodal
Gemini 3.1 Pro maneja texto, imágenes, audio, video y código en un solo contexto. Con una ventana de entrada de 1M de tokens, puede procesar bases de código completas o documentos de investigación extensos en una sola pasada.
RE-Bench: Rendimiento en Investigación ML
En RE-Bench, que evalúa capacidades de investigación y desarrollo en ML, Gemini 3.1 Pro obtiene 1.27 (normalizado respecto a humanos), frente al 1.04 de Gemini 3 Pro. El modelo completó tareas de optimización en 47 segundos frente a los 94 segundos de referencia humana.
Disponibilidad de Gemini 3.1 Pro
Gemini 3.1 Pro está disponible en la aplicación Gemini, Google Cloud Vertex AI, Google AI Studio y la API de Gemini. Los precios varían según la plataforma. El modelo está en vista previa; se espera la disponibilidad general próximamente.
Preguntas Frecuentes
¿Qué es Gemini 3.1 Pro?
¿Cómo se compara Gemini 3.1 Pro con Claude Opus 4.6?
¿Qué es el parámetro thinking_level en Gemini 3.1 Pro?
¿Qué es el endpoint de herramientas personalizadas en Gemini 3.1 Pro?
Mantente Actualizado
Recibe las últimas noticias de IA en tu correo.
