Gemini 3.1 Pro: Google の推論特化モデル

Gemini 3.1 Pro ベンチマーク結果

Google DeepMindは2026年2月19日にGemini 3.1 Proをリリースしました。このモデルは前世代の推論性能を2倍以上に向上させ、ARC-AGI-2で77.1%を記録しています（Gemini 3 Pro比）。

Gemini 3.1 Proは多段階の推論を必要とするタスクに特化しています：アルゴリズム設計、大規模データ統合、エージェントワークフロー、複雑なコーディング。

Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2

ベンチマーク	Gemini 3.1 Pro	Claude Opus 4.6	GPT-5.2-Codex
ARC-AGI-2	77.1%	—	—
RE-Bench (ML研究開発)	1.27	—	—
Terminal-Bench 2.0	—	#1	64.0%
Humanity's Last Exam	—	#1	—
コンテキスト（入力）	1M	200K (1M beta)	400K
コンテキスト（出力）	64K	128K	128K

各モデルは異なる領域でリードしています。Gemini 3.1 Proは新規推論ベンチマークで首位。Claude Opus 4.6はエージェント型コーディングと学際的推論でリード。GPT-5.2-Codexはより低い価格帯で競争力のあるコーディング性能を提供しています。

開発者向け主要機能

設定可能な思考深度

Gemini 3.1 Proは推論の深さを制御するthinking_levelパラメータを導入しました。低い思考レベルは日常的なタスクに対して高速で低コスト。高い思考レベルは複雑な問題により多くの計算リソースを投入します。

これはClaude Opus 4.6のeffort制御に類似していますが、Geminiはアダプティブなモデル動作ではなく明示的なAPIパラメータとして設定を公開しています。

カスタムツールエンドポイント

独立したエンドポイントgemini-3.1-pro-preview-customtoolsは、シェルコマンドとカスタムツールを組み合わせたエージェントアプリケーション向けに最適化されています。正確なツール選択と呼び出しを優先し、エージェントが外部システムと連携する際のエラーを削減します。これはGitHub Agentic Workflowsのようなエージェントを構築する開発者にとって重要であり、ツール選択の精度が自動化の信頼性に直接影響します。

YouTube URL入力

開発者はYouTube URLをプロンプトに直接渡すことができます。モデルが動画コンテンツを分析し、動画理解とコード生成やドキュメント作成を組み合わせたワークフローを実現します。

マルチモーダル処理

Gemini 3.1 Proはテキスト、画像、音声、動画、コードを単一のコンテキストで処理します。1Mトークンの入力ウィンドウにより、コードベース全体や長い研究文書を一度に処理できます。

RE-Bench: ML研究性能

ML研究開発能力を評価するRE-Benchにおいて、Gemini 3.1 Proは1.27（人間基準正規化）を記録し、Gemini 3 Proの1.04から向上しました。最適化タスクを47秒で完了し、人間の参照時間94秒を大幅に下回っています。

Gemini 3.1 Pro の提供状況

Gemini 3.1 ProはGeminiアプリ、Google Cloud Vertex AI、Google AI Studio、Gemini APIで利用可能です。料金はプラットフォームによって異なります。現在プレビュー段階であり、一般提供は今後予定されています。

よくある質問

Gemini 3.1 Proとは何ですか？

Gemini 3.1 Proは、Google DeepMindがGemini 3シリーズの推論性能を最適化したアップグレード版で、2026年2月19日にリリースされました。ARC-AGI-2で77.1%を記録し、Gemini 3 Proの推論性能を2倍以上に向上させています。1Mトークンの入力コンテキストと64Kの出力トークンをサポートし、開発者がモデルの推論深度を制御できるthinking_levelパラメータを導入しています。

Gemini 3.1 ProはClaude Opus 4.6と比べてどうですか？

Gemini 3.1 ProとClaude Opus 4.6はそれぞれ異なる分野で優れています。Gemini 3.1 ProはARC-AGI-2（77.1%）とRE-Bench ML研究開発でリードし、Claude Opus 4.6はTerminal-Bench 2.0のエージェント型コーディングとHumanity's Last Examの学際的推論で首位を維持しています。どちらも1Mトークンのコンテキストウィンドウを提供。ワークロードによって選択が異なり、Geminiは新規推論タスク、Claudeは継続的なコーディング作業に優れています。

Gemini 3.1 Proのthinking_levelパラメータとは何ですか？

thinking_levelパラメータにより、開発者はモデルが応答を生成する前に適用する最大推論深度を制御できます。低い思考レベルは単純なタスクに対して高速で低コスト。高い思考レベルは複雑な推論問題により多くの計算時間を割り当てます。これはClaude Opus 4.6のeffort制御に似ており、開発者にコスト・速度・品質のトレードオフの明示的な制御を提供します。

Gemini 3.1 Proのカスタムツールエンドポイントとは何ですか？

Gemini 3.1 Proには、gemini-3.1-pro-preview-customtoolsと呼ばれる独立したAPIエンドポイントが含まれており、カスタム開発者ツールの優先使用に最適化されています。bashコマンドとカスタムツールを組み合わせたエージェントアプリケーションを構築する際、このエンドポイントはモデルが正しいツールを確実に選択・呼び出すことを保証します。外部システムやAPIと連携するAIエージェントを構築する開発者にとって特に有用です。