Resultados de Benchmark de Claude Opus 4.6
Claude Opus 4.6 es el modelo más capaz de Anthropic, estableciendo nuevos récords en codificación, razonamiento y trabajo de conocimiento. Alcanza la puntuación más alta en Terminal-Bench 2.0, el principal benchmark para codificación agéntica, y lidera todos los modelos frontera en Humanity's Last Exam, una prueba de razonamiento multidisciplinario.
Para desarrolladores que ya usan Claude Sonnet 4.6 para tareas de codificación, Opus 4.6 representa el siguiente nivel de rendimiento para trabajo agéntico complejo y de múltiples pasos.
Rendimiento en Código: #1 en Terminal-Bench 2.0
Opus 4.6 mejora las habilidades de codificación de su predecesor en todas las dimensiones:
- Planificación cuidadosa: Planifica más minuciosamente antes de escribir código
- Tareas agénticas sostenidas: Mantiene contexto y calidad en sesiones más largas
- Navegación en bases de código grandes: Opera con más fiabilidad en proyectos complejos multi-archivo
- Autocorrección: Mejores habilidades de revisión de código y depuración para detectar sus propios errores
En Terminal-Bench 2.0, que evalúa tareas reales de administración de sistemas y codificación, Opus 4.6 alcanza la puntuación más alta de cualquier modelo.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Benchmark | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
En GDPval-AA, que mide el rendimiento en tareas de conocimiento económicamente valiosas en finanzas, legal y otros dominios, Opus 4.6 supera a GPT-5.2 por 144 puntos Elo y a su predecesor (Opus 4.5) por 190 puntos.
Nuevas Funcionalidades para Desarrolladores en Claude Opus 4.6
Agent Teams en Claude Code
Ahora puedes formar equipos de agentes para trabajar juntos en tareas dentro de Claude Code. Múltiples instancias de Claude colaboran en diferentes partes de una base de código simultáneamente, acelerando refactorizaciones complejas, desarrollo de funcionalidades y corrección de errores. La misma capacidad de agent teams impulsa Claude Code Security, que usa múltiples agentes para escanear, verificar y validar vulnerabilidades.
Compaction para Tareas de Larga Duración
Claude ahora puede resumir su propio contexto durante tareas de larga duración. Las sesiones agénticas de codificación pueden ejecutarse mucho más tiempo sin alcanzar los límites de la ventana de contexto. Para cambios complejos multi-archivo que involucran cientos de llamadas a herramientas, compaction mantiene la sesión productiva sin necesidad de reiniciar.
Pensamiento Adaptativo
El modelo capta señales contextuales sobre cuánto razonamiento extendido aplicar. Para preguntas simples, responde rápidamente. Para problemas de codificación complejos, piensa más profundamente. Los desarrolladores también obtienen nuevos controles de esfuerzo para ajustar costo, velocidad e inteligencia por solicitud.
Ventana de Contexto de 1M Tokens
Al igual que Claude Sonnet 4.6, Opus 4.6 cuenta con una ventana de contexto de 1M tokens en beta. Es una novedad para modelos de clase Opus, permitiendo procesar bases de código completas en una sola solicitud.
Precios y Disponibilidad de Claude Opus 4.6
Opus 4.6 está disponible en claude.ai, la API (claude-opus-4-6), Amazon Bedrock y Google Cloud Vertex AI a $5/$25 por millón de tokens.
Fuente original
https://www.anthropic.com/news/claude-opus-4-6Preguntas Frecuentes
¿En qué benchmarks lidera Claude Opus 4.6?
¿Qué son los agent teams en Claude Code?
¿Qué es compaction en Claude Opus 4.6?
¿Cuánto cuesta Claude Opus 4.6?
Mantente Actualizado
Recibe las últimas noticias de IA en tu correo.
