GPT-5.2-Codex 벤치마크 결과
OpenAI는 기본 GPT-5.2 모델 출시 5주 후인 2026년 1월 14일에 GPT-5.2-Codex를 출시했습니다. 이 모델은 에이전틱 코딩을 목표로 합니다: 모델이 계획하고, 코드를 작성하고, 테스트를 실행하고, 실패를 반복 수정하는 다단계 세션입니다.
이 모델은 SWE-Bench Pro에서 56.4%(기본 GPT-5.2의 55.6%에서 상승), Terminal-Bench 2.0에서 64.0%(62.2%에서 상승)를 기록합니다. 두 벤치마크 모두 단순한 코드 생성이 아닌 실제 코딩 작업을 테스트합니다.
GPT-5.2-Codex vs GPT-5.2 vs Claude Opus 4.6
| 벤치마크 | GPT-5.2-Codex | GPT-5.2 | Claude Opus 4.6 |
|---|---|---|---|
| SWE-Bench Pro | 56.4% | 55.6% | — |
| Terminal-Bench 2.0 | 64.0% | 62.2% | #1 |
| 컨텍스트 윈도우 (입력) | 400K | 128K | 200K (1M 베타) |
| 출력 토큰 | 128K | 128K | 128K |
GPT-5.2-Codex는 비용과 성능의 균형을 맞춥니다. Claude Opus 4.6는 Terminal-Bench 2.0과 Humanity's Last Exam에서 선두를 달리고, GPT-5.2-Codex는 가격과 컨텍스트 윈도우 크기에서 경쟁합니다.
개발자를 위한 주요 기능
컨텍스트 압축
Claude Opus 4.6의 압축 기능과 마찬가지로, GPT-5.2-Codex는 작업 상태를 보존하면서 이전 컨텍스트를 압축합니다. 이를 통해 대화가 컨텍스트 윈도우를 초과하더라도 모델이 전체 프로젝트를 추적하는 수 시간의 코딩 세션이 가능합니다.
장기 작업 완수
이 모델은 대규모 리팩터링, 코드베이스 마이그레이션, 다중 파일 기능 구현 등 여러 단계에 걸친 작업에 최적화되어 있습니다. 접근 방식이 실패하면 GPT-5.2-Codex는 작업을 재시작하지 않고 조정하여 다시 시도합니다.
내장 취약점 탐지
GPT-5.2-Codex는 코드 생성 중 취약점 탐지를 포함합니다. 더 깊은 스캐닝이 필요한 팀은 오탐지 필터링이 포함된 다단계 검증을 제공하는 Claude Code Security와 같은 전용 도구를 사용할 수 있습니다.
Windows 환경 지원
OpenAI는 이전 모델의 Unix 중심 최적화를 개선하여 GPT-5.2-Codex의 Windows 개발 성능을 향상시켰습니다.
GPT-5.2-Codex 가격
| 등급 | 백만 토큰당 비용 |
|---|---|
| 입력 | $1.75 |
| 출력 | $14.00 |
| 캐시된 입력 | $0.175 (90% 할인) |
GPT-5.2-Codex는 유료 ChatGPT 사용자를 위한 모든 Codex 환경과 독립 API 모델로 이용할 수 있습니다.
GPT-5.2-Codex가 에이전틱 코딩에 의미하는 것
이번 출시는 코드 완성에서 지속적인 코딩 에이전트로의 업계 전반의 전환을 반영합니다. OpenAI의 Codex, Anthropic의 Claude Code, GitHub Agentic Workflows 모두 최소한의 인간 개입으로 다단계 엔지니어링 작업을 수행하는 것을 목표로 합니다.
자주 묻는 질문
GPT-5.2-Codex란 무엇인가요?
GPT-5.2-Codex 비용은 얼마인가요?
GPT-5.2-Codex의 컨텍스트 압축이란 무엇인가요?
GPT-5.2-Codex와 Claude Opus 4.6는 어떻게 비교되나요?
최신 소식 받기
최신 AI 뉴스를 이메일로 받아보세요.
