Gemini 3.1 Pro: Google의 추론 우선 모델

Gemini 3.1 Pro 벤치마크 결과

Google DeepMind는 2026년 2월 19일 Gemini 3.1 Pro를 출시했습니다. 이 모델은 전작의 추론 성능을 두 배 이상 앞서며 ARC-AGI-2에서 Gemini 3 Pro 대비 77.1%를 기록합니다.

Gemini 3.1 Pro는 다단계 추론이 필요한 작업을 목표로 합니다: 알고리즘 설계, 대규모 데이터 합성, 에이전틱 워크플로, 복잡한 코딩.

Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2

벤치마크	Gemini 3.1 Pro	Claude Opus 4.6	GPT-5.2-Codex
ARC-AGI-2	77.1%	—	—
RE-Bench (ML R&D)	1.27	—	—
Terminal-Bench 2.0	—	#1	64.0%
Humanity's Last Exam	—	#1	—
컨텍스트 (입력)	1M	200K (1M 베타)	400K
컨텍스트 (출력)	64K	128K	128K

각 모델이 서로 다른 영역에서 선두를 달립니다. Gemini 3.1 Pro는 새로운 추론 벤치마크를 선도합니다. Claude Opus 4.6는 에이전틱 코딩과 다학제 추론에서 선두입니다. GPT-5.2-Codex는 더 낮은 가격에 경쟁력 있는 코딩 성능을 제공합니다.

개발자를 위한 주요 기능

구성 가능한 사고 깊이

Gemini 3.1 Pro는 추론 깊이를 제어하는 thinking_level 매개변수를 도입합니다. 낮은 thinking은 일상적인 작업에 빠르고 경제적입니다. 높은 thinking은 복잡한 문제에 더 많은 연산을 적용합니다.

이는 Claude Opus 4.6의 노력 제어와 유사하지만, Gemini는 적응적 모델 동작이 아닌 명시적 API 매개변수로 설정을 노출합니다.

커스텀 도구 엔드포인트

별도의 엔드포인트 gemini-3.1-pro-preview-customtools는 셸 명령과 커스텀 도구를 결합한 에이전틱 애플리케이션에 최적화되어 있습니다. 올바른 도구 선택과 호출을 우선시하여 에이전트가 외부 시스템과 상호작용할 때 오류를 줄입니다. 도구 선택 정확도가 자동화 안정성에 직접 영향을 미치는 GitHub Agentic Workflows와 유사한 에이전트를 구축하는 개발자에게 관련됩니다.

YouTube URL 입력

개발자가 YouTube URL을 프롬프트에 직접 전달할 수 있습니다. 모델이 동영상 콘텐츠를 분석하여 비디오 이해와 코드 생성 또는 문서화를 결합한 워크플로를 가능하게 합니다.

멀티모달 처리

Gemini 3.1 Pro는 단일 컨텍스트에서 텍스트, 이미지, 오디오, 비디오, 코드를 처리합니다. 1M 토큰 입력 윈도우로 전체 코드베이스나 긴 연구 문서를 한 번에 처리할 수 있습니다.

RE-Bench: ML 연구 성능

ML 연구 개발 역량을 평가하는 RE-Bench에서 Gemini 3.1 Pro는 1.27(인간 정규화)을 기록하여 Gemini 3 Pro의 1.04에서 상승했습니다. 이 모델은 인간 참조 94초 대비 47초 만에 최적화 작업을 완료했습니다.

Gemini 3.1 Pro 출시 정보

Gemini 3.1 Pro는 Gemini 앱, Google Cloud Vertex AI, Google AI Studio, Gemini API에서 이용 가능합니다. 가격은 플랫폼에 따라 다릅니다. 현재 프리뷰 단계이며 정식 출시가 예정되어 있습니다.

자주 묻는 질문

Gemini 3.1 Pro란 무엇인가요?

Gemini 3.1 Pro는 2026년 2월 19일에 출시된 Google DeepMind의 Gemini 3 시리즈 추론 최적화 업그레이드입니다. ARC-AGI-2에서 77.1%를 기록하여 Gemini 3 Pro의 추론 성능을 두 배 이상 앞섭니다. 입력 1M, 출력 64K 토큰 컨텍스트를 지원하며, 개발자가 모델의 사고 깊이를 제어할 수 있는 thinking_level 매개변수를 도입합니다.

Gemini 3.1 Pro와 Claude Opus 4.6는 어떻게 비교되나요?

Gemini 3.1 Pro와 Claude Opus 4.6는 서로 다른 강점을 목표로 합니다. Gemini 3.1 Pro는 ARC-AGI-2(77.1%)와 ML R&D용 RE-Bench에서 선두이고, Claude Opus 4.6는 에이전틱 코딩의 Terminal-Bench 2.0과 다학제 추론의 Humanity's Last Exam에서 최고 자리를 유지합니다. 둘 다 1M 토큰 컨텍스트 윈도우를 제공합니다. 선택은 워크로드에 따라 달라집니다: Gemini는 새로운 추론 과제에, Claude는 지속적인 코딩 작업에 탁월합니다.

Gemini 3.1 Pro의 thinking_level 매개변수란 무엇인가요?

thinking_level 매개변수를 통해 개발자가 모델이 응답을 생성하기 전에 적용하는 최대 추론 깊이를 제어할 수 있습니다. 낮은 thinking은 간단한 작업에 더 빠르고 저렴합니다. 높은 thinking은 복잡한 추론 문제에 더 많은 연산 시간을 할당합니다. 이는 Claude Opus 4.6의 노력 제어와 유사하게 비용-속도-품질 절충에 대한 명시적 제어를 개발자에게 제공합니다.

Gemini 3.1 Pro의 커스텀 도구 엔드포인트란 무엇인가요?

Gemini 3.1 Pro는 개발자 커스텀 도구를 우선시하도록 최적화된 gemini-3.1-pro-preview-customtools라는 별도의 API 엔드포인트를 포함합니다. bash 명령과 커스텀 도구를 혼합한 에이전틱 애플리케이션을 구축할 때 이 엔드포인트는 모델이 올바른 도구를 정확하게 선택하고 호출하도록 보장합니다. 외부 시스템 및 API와 상호작용해야 하는 AI 에이전트를 구축하는 개발자에게 특히 유용합니다.