Gemini 3.1 Pro 벤치마크 결과
Google DeepMind는 2026년 2월 19일 Gemini 3.1 Pro를 출시했습니다. 이 모델은 전작의 추론 성능을 두 배 이상 앞서며 ARC-AGI-2에서 Gemini 3 Pro 대비 77.1%를 기록합니다.
Gemini 3.1 Pro는 다단계 추론이 필요한 작업을 목표로 합니다: 알고리즘 설계, 대규모 데이터 합성, 에이전틱 워크플로, 복잡한 코딩.
Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2
| 벤치마크 | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2-Codex |
|---|---|---|---|
| ARC-AGI-2 | 77.1% | — | — |
| RE-Bench (ML R&D) | 1.27 | — | — |
| Terminal-Bench 2.0 | — | #1 | 64.0% |
| Humanity's Last Exam | — | #1 | — |
| 컨텍스트 (입력) | 1M | 200K (1M 베타) | 400K |
| 컨텍스트 (출력) | 64K | 128K | 128K |
각 모델이 서로 다른 영역에서 선두를 달립니다. Gemini 3.1 Pro는 새로운 추론 벤치마크를 선도합니다. Claude Opus 4.6는 에이전틱 코딩과 다학제 추론에서 선두입니다. GPT-5.2-Codex는 더 낮은 가격에 경쟁력 있는 코딩 성능을 제공합니다.
개발자를 위한 주요 기능
구성 가능한 사고 깊이
Gemini 3.1 Pro는 추론 깊이를 제어하는 thinking_level 매개변수를 도입합니다. 낮은 thinking은 일상적인 작업에 빠르고 경제적입니다. 높은 thinking은 복잡한 문제에 더 많은 연산을 적용합니다.
이는 Claude Opus 4.6의 노력 제어와 유사하지만, Gemini는 적응적 모델 동작이 아닌 명시적 API 매개변수로 설정을 노출합니다.
커스텀 도구 엔드포인트
별도의 엔드포인트 gemini-3.1-pro-preview-customtools는 셸 명령과 커스텀 도구를 결합한 에이전틱 애플리케이션에 최적화되어 있습니다. 올바른 도구 선택과 호출을 우선시하여 에이전트가 외부 시스템과 상호작용할 때 오류를 줄입니다. 도구 선택 정확도가 자동화 안정성에 직접 영향을 미치는 GitHub Agentic Workflows와 유사한 에이전트를 구축하는 개발자에게 관련됩니다.
YouTube URL 입력
개발자가 YouTube URL을 프롬프트에 직접 전달할 수 있습니다. 모델이 동영상 콘텐츠를 분석하여 비디오 이해와 코드 생성 또는 문서화를 결합한 워크플로를 가능하게 합니다.
멀티모달 처리
Gemini 3.1 Pro는 단일 컨텍스트에서 텍스트, 이미지, 오디오, 비디오, 코드를 처리합니다. 1M 토큰 입력 윈도우로 전체 코드베이스나 긴 연구 문서를 한 번에 처리할 수 있습니다.
RE-Bench: ML 연구 성능
ML 연구 개발 역량을 평가하는 RE-Bench에서 Gemini 3.1 Pro는 1.27(인간 정규화)을 기록하여 Gemini 3 Pro의 1.04에서 상승했습니다. 이 모델은 인간 참조 94초 대비 47초 만에 최적화 작업을 완료했습니다.
Gemini 3.1 Pro 출시 정보
Gemini 3.1 Pro는 Gemini 앱, Google Cloud Vertex AI, Google AI Studio, Gemini API에서 이용 가능합니다. 가격은 플랫폼에 따라 다릅니다. 현재 프리뷰 단계이며 정식 출시가 예정되어 있습니다.
자주 묻는 질문
Gemini 3.1 Pro란 무엇인가요?
Gemini 3.1 Pro와 Claude Opus 4.6는 어떻게 비교되나요?
Gemini 3.1 Pro의 thinking_level 매개변수란 무엇인가요?
Gemini 3.1 Pro의 커스텀 도구 엔드포인트란 무엇인가요?
최신 소식 받기
최신 AI 뉴스를 이메일로 받아보세요.
