GPT-5.2-Codex: El Modelo de Codificación Agéntica de OpenAI

Resultados de Benchmark de GPT-5.2-Codex

OpenAI lanzó GPT-5.2-Codex el 14 de enero de 2026, cinco semanas después del modelo base GPT-5.2. Está orientado a la codificación agéntica: sesiones de múltiples pasos donde el modelo planifica, escribe código, ejecuta pruebas e itera sobre los fallos.

El modelo obtiene 56.4% en SWE-Bench Pro (frente al 55.6% del GPT-5.2 base) y 64.0% en Terminal-Bench 2.0 (frente al 62.2%). Ambos benchmarks evalúan tareas de programación del mundo real, no generación de código aislada.

GPT-5.2-Codex vs GPT-5.2 vs Claude Opus 4.6

Benchmark	GPT-5.2-Codex	GPT-5.2	Claude Opus 4.6
SWE-Bench Pro	56.4%	55.6%	—
Terminal-Bench 2.0	64.0%	62.2%	#1
Ventana de contexto (entrada)	400K	128K	200K (1M beta)
Tokens de salida	128K	128K	128K

GPT-5.2-Codex equilibra costo y rendimiento. Claude Opus 4.6 lidera Terminal-Bench 2.0 y Humanity's Last Exam, mientras que GPT-5.2-Codex compite en precio y tamaño de ventana de contexto.

Funcionalidades Clave para Desarrolladores

Compactación de Contexto

Al igual que la función de compactación de Claude Opus 4.6, GPT-5.2-Codex comprime el contexto anterior preservando el estado de la tarea. Esto permite sesiones de codificación de varias horas donde el modelo rastrea todo el proyecto incluso cuando la conversación excede la ventana de contexto.

Completado de Tareas de Largo Plazo

El modelo está optimizado para tareas que abarcan muchos pasos: grandes refactorizaciones, migraciones de código base y desarrollo de funcionalidades multi-archivo. Cuando un enfoque falla, GPT-5.2-Codex se ajusta y reintenta en lugar de reiniciar la tarea.

Detección de Vulnerabilidades Integrada

GPT-5.2-Codex incluye detección de vulnerabilidades durante la generación de código. Los equipos que necesiten un escaneo más profundo pueden usar herramientas dedicadas como Claude Code Security, que ofrece verificación en múltiples etapas con filtrado de falsos positivos.

Soporte para Entornos Windows

OpenAI mejoró el rendimiento de GPT-5.2-Codex en desarrollo para Windows, abordando la optimización centrada en Unix de modelos anteriores.

Precios de GPT-5.2-Codex

Nivel	Costo por Millón de Tokens
Entrada	$1.75
Salida	$14.00
Entrada en caché	$0.175 (90% descuento)

GPT-5.2-Codex está disponible en todas las superficies Codex para usuarios de ChatGPT de pago y como modelo API independiente.

Qué Significa GPT-5.2-Codex para la Codificación Agéntica

El lanzamiento refleja un cambio a nivel industrial desde la completación de código hacia agentes de codificación sostenida. El Codex de OpenAI, el Claude Code de Anthropic y los GitHub Agentic Workflows apuntan a tareas de ingeniería de múltiples pasos con mínima intervención humana.

Preguntas Frecuentes

¿Qué es GPT-5.2-Codex?

GPT-5.2-Codex es la variante optimizada para programación del modelo GPT-5.2 de OpenAI, lanzada el 14 de enero de 2026. Está diseñado específicamente para flujos de trabajo de codificación agéntica donde el modelo ejecuta sesiones sostenidas de ingeniería de software en múltiples pasos. Obtiene 56.4% en SWE-Bench Pro y 64.0% en Terminal-Bench 2.0, mejorando los 55.6% y 62.2% del modelo base GPT-5.2 respectivamente. El modelo soporta una ventana de contexto de 400K tokens de entrada y 128K de salida.

¿Cuánto cuesta GPT-5.2-Codex?

GPT-5.2-Codex cuesta $1.75 por millón de tokens de entrada y $14 por millón de tokens de salida. Las entradas en caché reciben un descuento del 90%, reduciendo la tarifa efectiva a $0.175 por millón de tokens. Esto lo hace significativamente más barato que Claude Opus 4.6 a $5/$25 por millón de tokens, aunque los dos modelos difieren en rendimiento de benchmarks y conjuntos de funcionalidades.

¿Qué es la compactación de contexto en GPT-5.2-Codex?

La compactación de contexto es una función que comprime el contexto de conversación anterior preservando el estado crítico de la tarea. Esto permite que GPT-5.2-Codex mantenga sesiones de codificación de varias horas sin perder el alcance del proyecto. Cuando una sesión se acerca al límite de la ventana de contexto, el modelo resume el contexto antiguo en lugar de descartarlo, permitiendo tareas de codificación más largas y complejas sin reiniciar.

¿Cómo se compara GPT-5.2-Codex con Claude Opus 4.6?

En Terminal-Bench 2.0, Claude Opus 4.6 mantiene la puntuación más alta, por encima del 64.0% de GPT-5.2-Codex. En SWE-Bench Pro, GPT-5.2-Codex obtiene 56.4%. Los dos modelos adoptan enfoques diferentes: GPT-5.2-Codex ofrece un contexto de entrada más grande (400K tokens vs. los 200K estándar de Claude) y precios más bajos, mientras que Claude Opus 4.6 ofrece agent teams y puntuaciones más altas en tareas de razonamiento como Humanity's Last Exam.