Code Velocity
AI 모델

Claude Opus 4.6: 코딩 및 추론 벤치마크 #1

·7 분 소요·Anthropic, OpenAI·원본 출처
공유
Claude Opus 4.6 벤치마크 비교 차트: Terminal-Bench 2.0, Humanity's Last Exam, GDPval-AA에서 #1 순위

Claude Opus 4.6 벤치마크 결과

Claude Opus 4.6는 Anthropic의 가장 강력한 모델로, 코딩, 추론, 지식 작업에서 새로운 기록을 세웠습니다. 에이전틱 코딩의 대표 벤치마크인 Terminal-Bench 2.0에서 최고 점수를 달성하고, 다학제 추론 테스트인 Humanity's Last Exam에서 모든 프론티어 모델을 선도합니다.

이미 코딩 작업에 Claude Sonnet 4.6를 사용하고 있는 개발자에게 Opus 4.6는 복잡하고 다단계인 에이전틱 작업을 위한 한 단계 높은 성능을 제공합니다.

코딩 성능: Terminal-Bench 2.0 #1

Opus 4.6는 전작의 코딩 역량을 모든 면에서 개선합니다:

  • 신중한 계획: 코드 작성 전 더 꼼꼼하게 계획
  • 지속적 에이전틱 작업: 더 긴 코딩 세션에서 컨텍스트와 품질 유지
  • 대규모 코드베이스 탐색: 복잡한 다중 파일 프로젝트에서 더 안정적으로 작동
  • 자가 수정: 자체 오류를 발견하는 향상된 코드 리뷰 및 디버깅 능력

실제 시스템 관리 및 코딩 작업을 테스트하는 Terminal-Bench 2.0에서 Opus 4.6는 모든 모델 중 최고 점수를 달성합니다.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

벤치마크Opus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

금융, 법률 등의 경제적으로 가치 있는 지식 작업 성능을 측정하는 GDPval-AA에서 Opus 4.6는 GPT-5.2를 144 Elo 포인트, 전작(Opus 4.5)을 190 포인트 차이로 앞섭니다.

Claude Opus 4.6의 새로운 개발자 기능

Claude Code의 Agent Teams

이제 Claude Code 내에서 에이전트 팀을 구성하여 함께 작업할 수 있습니다. 여러 Claude 인스턴스가 코드베이스의 서로 다른 부분에서 동시에 협업하여 복잡한 리팩터링, 기능 개발, 버그 수정을 가속화합니다. 동일한 agent teams 기능이 여러 에이전트를 사용하여 취약점을 스캔, 검증, 확인하는 Claude Code Security를 구동합니다.

장기 작업을 위한 Compaction

Claude가 이제 장기 작업 중 자체 컨텍스트를 요약할 수 있습니다. 에이전틱 코딩 세션이 컨텍스트 윈도우 한계에 도달하지 않고 훨씬 더 오래 실행될 수 있습니다. 수백 번의 도구 호출이 포함되는 복잡한 다중 파일 변경의 경우, compaction은 재시작 없이 세션의 생산성을 유지합니다.

적응형 사고

모델이 얼마나 깊이 확장된 사고를 적용할지에 대한 맥락적 단서를 파악합니다. 간단한 질문에는 빠르게 응답합니다. 복잡한 코딩 문제에는 더 깊이 생각합니다. 개발자는 요청당 비용/속도/지능을 세밀하게 조정할 수 있는 새로운 노력 제어 기능도 사용할 수 있습니다.

1M 토큰 컨텍스트 윈도우

Claude Sonnet 4.6와 마찬가지로 Opus 4.6는 베타로 1M 토큰 컨텍스트 윈도우를 제공합니다. Opus급 모델 최초로, 대규모 코드베이스 전체를 단일 요청으로 처리할 수 있습니다.

Claude Opus 4.6 가격 및 출시 정보

Opus 4.6는 claude.ai, API(claude-opus-4-6), Amazon Bedrock, Google Cloud Vertex AI에서 백만 토큰당 $5/$25로 이용 가능합니다.

자주 묻는 질문

Claude Opus 4.6가 선두인 벤치마크는 무엇인가요?
Claude Opus 4.6는 네 가지 주요 벤치마크에서 #1을 차지합니다: 에이전틱 코딩의 Terminal-Bench 2.0, 다학제 추론의 Humanity's Last Exam, 정보 검색의 BrowseComp, 지식 작업의 GDPval-AA. GDPval-AA에서 GPT-5.2를 144 Elo 포인트, 전작 Opus 4.5를 190 포인트 차이로 앞섭니다. 이 결과로 2026년 2월 기준 코딩과 추론 모두에서 가장 높은 점수를 기록한 프론티어 모델이 되었습니다.
Claude Code의 agent teams란 무엇인가요?
Agent teams는 Claude Code의 새 기능으로 여러 Claude 인스턴스가 병렬로 작업에 협업할 수 있게 합니다. 예를 들어, 한 에이전트가 모듈을 리팩터링하는 동안 다른 에이전트가 테스트를 작성하고 세 번째 에이전트가 문서를 업데이트할 수 있습니다. 이 병렬 접근 방식은 단일 에이전트로는 훨씬 오래 걸릴 복잡한 코드베이스 변경을 가속화합니다. Agent teams는 Opus 4.6과 함께 출시되었으며 Opus와 Sonnet 모델 모두에서 작동합니다.
Claude Opus 4.6의 compaction이란 무엇인가요?
Compaction은 장기 에이전틱 작업 중 Claude가 자체 대화 기록을 요약할 수 있게 하는 컨텍스트 관리 기능입니다. 코딩 세션이 컨텍스트 윈도우 한계에 가까워지면 compaction이 이전 컨텍스트를 요약으로 압축하여 Claude가 작업의 흐름을 잃지 않고 계속 작업할 수 있게 합니다. 수백 번의 도구 호출이 포함되는 다중 파일 리팩터링 세션에 특히 유용합니다.
Claude Opus 4.6의 비용은 얼마인가요?
Claude Opus 4.6는 입력 백만 토큰당 $5, 출력 백만 토큰당 $25로 이전 Opus 모델과 동일한 가격입니다. claude.ai, 모델 ID claude-opus-4-6의 Anthropic API, Amazon Bedrock, Google Cloud Vertex AI에서 이용 가능합니다. 비교를 위해, Claude Sonnet 4.6는 백만 토큰당 $3/$15로 유사한 코딩 품질을 제공합니다.

최신 소식 받기

최신 AI 뉴스를 이메일로 받아보세요.

공유