GPT-5.2-Codex: OpenAI의 에이전틱 코딩 모델

GPT-5.2-Codex 벤치마크 결과

OpenAI는 기본 GPT-5.2 모델 출시 5주 후인 2026년 1월 14일에 GPT-5.2-Codex를 출시했습니다. 이 모델은 에이전틱 코딩을 목표로 합니다: 모델이 계획하고, 코드를 작성하고, 테스트를 실행하고, 실패를 반복 수정하는 다단계 세션입니다.

이 모델은 SWE-Bench Pro에서 56.4%(기본 GPT-5.2의 55.6%에서 상승), Terminal-Bench 2.0에서 64.0%(62.2%에서 상승)를 기록합니다. 두 벤치마크 모두 단순한 코드 생성이 아닌 실제 코딩 작업을 테스트합니다.

GPT-5.2-Codex vs GPT-5.2 vs Claude Opus 4.6

벤치마크	GPT-5.2-Codex	GPT-5.2	Claude Opus 4.6
SWE-Bench Pro	56.4%	55.6%	—
Terminal-Bench 2.0	64.0%	62.2%	#1
컨텍스트 윈도우 (입력)	400K	128K	200K (1M 베타)
출력 토큰	128K	128K	128K

GPT-5.2-Codex는 비용과 성능의 균형을 맞춥니다. Claude Opus 4.6는 Terminal-Bench 2.0과 Humanity's Last Exam에서 선두를 달리고, GPT-5.2-Codex는 가격과 컨텍스트 윈도우 크기에서 경쟁합니다.

개발자를 위한 주요 기능

컨텍스트 압축

Claude Opus 4.6의 압축 기능과 마찬가지로, GPT-5.2-Codex는 작업 상태를 보존하면서 이전 컨텍스트를 압축합니다. 이를 통해 대화가 컨텍스트 윈도우를 초과하더라도 모델이 전체 프로젝트를 추적하는 수 시간의 코딩 세션이 가능합니다.

장기 작업 완수

이 모델은 대규모 리팩터링, 코드베이스 마이그레이션, 다중 파일 기능 구현 등 여러 단계에 걸친 작업에 최적화되어 있습니다. 접근 방식이 실패하면 GPT-5.2-Codex는 작업을 재시작하지 않고 조정하여 다시 시도합니다.

내장 취약점 탐지

GPT-5.2-Codex는 코드 생성 중 취약점 탐지를 포함합니다. 더 깊은 스캐닝이 필요한 팀은 오탐지 필터링이 포함된 다단계 검증을 제공하는 Claude Code Security와 같은 전용 도구를 사용할 수 있습니다.

Windows 환경 지원

OpenAI는 이전 모델의 Unix 중심 최적화를 개선하여 GPT-5.2-Codex의 Windows 개발 성능을 향상시켰습니다.

GPT-5.2-Codex 가격

등급	백만 토큰당 비용
입력	$1.75
출력	$14.00
캐시된 입력	$0.175 (90% 할인)

GPT-5.2-Codex는 유료 ChatGPT 사용자를 위한 모든 Codex 환경과 독립 API 모델로 이용할 수 있습니다.

GPT-5.2-Codex가 에이전틱 코딩에 의미하는 것

이번 출시는 코드 완성에서 지속적인 코딩 에이전트로의 업계 전반의 전환을 반영합니다. OpenAI의 Codex, Anthropic의 Claude Code, GitHub Agentic Workflows 모두 최소한의 인간 개입으로 다단계 엔지니어링 작업을 수행하는 것을 목표로 합니다.

자주 묻는 질문

GPT-5.2-Codex란 무엇인가요?

GPT-5.2-Codex는 2026년 1월 14일에 출시된 OpenAI의 코딩 최적화 GPT-5.2 변형 모델입니다. 모델이 지속적이고 다단계 소프트웨어 엔지니어링 세션을 수행하는 에이전틱 코딩 워크플로를 위해 특별히 설계되었습니다. SWE-Bench Pro에서 56.4%, Terminal-Bench 2.0에서 64.0%를 기록하여 기본 GPT-5.2의 55.6%와 62.2%를 각각 개선했습니다. 입력 400K, 출력 128K 토큰의 컨텍스트 윈도우를 지원합니다.

GPT-5.2-Codex 비용은 얼마인가요?

GPT-5.2-Codex는 입력 백만 토큰당 $1.75, 출력 백만 토큰당 $14입니다. 캐시된 입력은 90% 할인이 적용되어 실질 캐시 요금이 백만 토큰당 $0.175가 됩니다. 이는 Claude Opus 4.6의 백만 토큰당 $5/$25보다 상당히 저렴하지만, 두 모델은 벤치마크 성능과 기능 세트에서 차이가 있습니다.

GPT-5.2-Codex의 컨텍스트 압축이란 무엇인가요?

컨텍스트 압축은 핵심 작업 상태를 보존하면서 이전 대화 컨텍스트를 압축하는 기능입니다. 이를 통해 GPT-5.2-Codex는 프로젝트 범위를 놓치지 않고 수 시간에 걸친 코딩 세션을 유지할 수 있습니다. 세션이 컨텍스트 윈도우 한계에 가까워지면 모델이 오래된 컨텍스트를 삭제하는 대신 요약하여 재시작 없이 더 길고 복잡한 코딩 작업을 가능하게 합니다.

GPT-5.2-Codex와 Claude Opus 4.6는 어떻게 비교되나요?

Terminal-Bench 2.0에서 Claude Opus 4.6가 최고 점수를 보유하며 GPT-5.2-Codex의 64.0%를 앞섭니다. SWE-Bench Pro에서 GPT-5.2-Codex는 56.4%를 기록합니다. 두 모델은 서로 다른 접근 방식을 취합니다: GPT-5.2-Codex는 더 큰 입력 컨텍스트(400K 토큰 vs Claude의 표준 200K)와 낮은 가격을 제공하고, Claude Opus 4.6는 agent teams와 Humanity's Last Exam 같은 추론 작업에서 더 높은 벤치마크 점수를 제공합니다.