Code Velocity
Modelos de IA

Claude Opus 4.6: #1 en Benchmarks de Código y Razonamiento

·7 min de lectura·Anthropic, OpenAI·Fuente original
Compartir
Gráfico comparativo de benchmarks de Claude Opus 4.6 mostrando rankings #1 en Terminal-Bench 2.0, Humanity's Last Exam y GDPval-AA

Resultados de Benchmark de Claude Opus 4.6

Claude Opus 4.6 es el modelo más capaz de Anthropic, estableciendo nuevos récords en codificación, razonamiento y trabajo de conocimiento. Alcanza la puntuación más alta en Terminal-Bench 2.0, el principal benchmark para codificación agéntica, y lidera todos los modelos frontera en Humanity's Last Exam, una prueba de razonamiento multidisciplinario.

Para desarrolladores que ya usan Claude Sonnet 4.6 para tareas de codificación, Opus 4.6 representa el siguiente nivel de rendimiento para trabajo agéntico complejo y de múltiples pasos.

Rendimiento en Código: #1 en Terminal-Bench 2.0

Opus 4.6 mejora las habilidades de codificación de su predecesor en todas las dimensiones:

  • Planificación cuidadosa: Planifica más minuciosamente antes de escribir código
  • Tareas agénticas sostenidas: Mantiene contexto y calidad en sesiones más largas
  • Navegación en bases de código grandes: Opera con más fiabilidad en proyectos complejos multi-archivo
  • Autocorrección: Mejores habilidades de revisión de código y depuración para detectar sus propios errores

En Terminal-Bench 2.0, que evalúa tareas reales de administración de sistemas y codificación, Opus 4.6 alcanza la puntuación más alta de cualquier modelo.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

BenchmarkOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

En GDPval-AA, que mide el rendimiento en tareas de conocimiento económicamente valiosas en finanzas, legal y otros dominios, Opus 4.6 supera a GPT-5.2 por 144 puntos Elo y a su predecesor (Opus 4.5) por 190 puntos.

Nuevas Funcionalidades para Desarrolladores en Claude Opus 4.6

Agent Teams en Claude Code

Ahora puedes formar equipos de agentes para trabajar juntos en tareas dentro de Claude Code. Múltiples instancias de Claude colaboran en diferentes partes de una base de código simultáneamente, acelerando refactorizaciones complejas, desarrollo de funcionalidades y corrección de errores. La misma capacidad de agent teams impulsa Claude Code Security, que usa múltiples agentes para escanear, verificar y validar vulnerabilidades.

Compaction para Tareas de Larga Duración

Claude ahora puede resumir su propio contexto durante tareas de larga duración. Las sesiones agénticas de codificación pueden ejecutarse mucho más tiempo sin alcanzar los límites de la ventana de contexto. Para cambios complejos multi-archivo que involucran cientos de llamadas a herramientas, compaction mantiene la sesión productiva sin necesidad de reiniciar.

Pensamiento Adaptativo

El modelo capta señales contextuales sobre cuánto razonamiento extendido aplicar. Para preguntas simples, responde rápidamente. Para problemas de codificación complejos, piensa más profundamente. Los desarrolladores también obtienen nuevos controles de esfuerzo para ajustar costo, velocidad e inteligencia por solicitud.

Ventana de Contexto de 1M Tokens

Al igual que Claude Sonnet 4.6, Opus 4.6 cuenta con una ventana de contexto de 1M tokens en beta. Es una novedad para modelos de clase Opus, permitiendo procesar bases de código completas en una sola solicitud.

Precios y Disponibilidad de Claude Opus 4.6

Opus 4.6 está disponible en claude.ai, la API (claude-opus-4-6), Amazon Bedrock y Google Cloud Vertex AI a $5/$25 por millón de tokens.

Preguntas Frecuentes

¿En qué benchmarks lidera Claude Opus 4.6?
Claude Opus 4.6 ocupa la posición #1 en cuatro benchmarks principales: Terminal-Bench 2.0 para codificación agéntica, Humanity's Last Exam para razonamiento multidisciplinario, BrowseComp para recuperación de información y GDPval-AA para trabajo de conocimiento. En GDPval-AA, supera a GPT-5.2 por 144 puntos Elo y a su predecesor Opus 4.5 por 190 puntos. Estos resultados lo convierten en el modelo frontera con mayor puntuación en código y razonamiento a febrero de 2026.
¿Qué son los agent teams en Claude Code?
Agent teams es una nueva funcionalidad en Claude Code que permite que múltiples instancias de Claude colaboren en tareas en paralelo. Por ejemplo, un agente puede refactorizar un módulo mientras otro escribe pruebas y un tercero actualiza documentación. Este enfoque paralelo acelera cambios complejos en la base de código que tomarían mucho más tiempo con un solo agente. Agent teams se lanzó junto con Opus 4.6 y funciona con modelos Opus y Sonnet.
¿Qué es compaction en Claude Opus 4.6?
Compaction es una función de gestión de contexto que permite a Claude resumir su propio historial de conversación durante tareas agénticas de larga duración. Cuando una sesión de codificación se acerca al límite de la ventana de contexto, compaction condensa el contexto anterior en un resumen para que Claude pueda seguir trabajando sin perder el hilo de la tarea. Esto es especialmente útil para sesiones de refactorización multi-archivo que involucran cientos de llamadas a herramientas.
¿Cuánto cuesta Claude Opus 4.6?
Claude Opus 4.6 cuesta $5 por millón de tokens de entrada y $25 por millón de tokens de salida, el mismo precio que los modelos Opus anteriores. Está disponible en claude.ai, la API de Anthropic con model ID claude-opus-4-6, Amazon Bedrock y Google Cloud Vertex AI. Como referencia, Claude Sonnet 4.6 ofrece calidad de código similar a $3/$15 por millón de tokens.

Mantente Actualizado

Recibe las últimas noticias de IA en tu correo.

Compartir