Gemini 3.1 Pro ベンチマーク結果
Google DeepMindは2026年2月19日にGemini 3.1 Proをリリースしました。このモデルは前世代の推論性能を2倍以上に向上させ、ARC-AGI-2で77.1%を記録しています(Gemini 3 Pro比)。
Gemini 3.1 Proは多段階の推論を必要とするタスクに特化しています:アルゴリズム設計、大規模データ統合、エージェントワークフロー、複雑なコーディング。
Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2
| ベンチマーク | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2-Codex |
|---|---|---|---|
| ARC-AGI-2 | 77.1% | — | — |
| RE-Bench (ML研究開発) | 1.27 | — | — |
| Terminal-Bench 2.0 | — | #1 | 64.0% |
| Humanity's Last Exam | — | #1 | — |
| コンテキスト(入力) | 1M | 200K (1M beta) | 400K |
| コンテキスト(出力) | 64K | 128K | 128K |
各モデルは異なる領域でリードしています。Gemini 3.1 Proは新規推論ベンチマークで首位。Claude Opus 4.6はエージェント型コーディングと学際的推論でリード。GPT-5.2-Codexはより低い価格帯で競争力のあるコーディング性能を提供しています。
開発者向け主要機能
設定可能な思考深度
Gemini 3.1 Proは推論の深さを制御するthinking_levelパラメータを導入しました。低い思考レベルは日常的なタスクに対して高速で低コスト。高い思考レベルは複雑な問題により多くの計算リソースを投入します。
これはClaude Opus 4.6のeffort制御に類似していますが、Geminiはアダプティブなモデル動作ではなく明示的なAPIパラメータとして設定を公開しています。
カスタムツールエンドポイント
独立したエンドポイントgemini-3.1-pro-preview-customtoolsは、シェルコマンドとカスタムツールを組み合わせたエージェントアプリケーション向けに最適化されています。正確なツール選択と呼び出しを優先し、エージェントが外部システムと連携する際のエラーを削減します。これはGitHub Agentic Workflowsのようなエージェントを構築する開発者にとって重要であり、ツール選択の精度が自動化の信頼性に直接影響します。
YouTube URL入力
開発者はYouTube URLをプロンプトに直接渡すことができます。モデルが動画コンテンツを分析し、動画理解とコード生成やドキュメント作成を組み合わせたワークフローを実現します。
マルチモーダル処理
Gemini 3.1 Proはテキスト、画像、音声、動画、コードを単一のコンテキストで処理します。1Mトークンの入力ウィンドウにより、コードベース全体や長い研究文書を一度に処理できます。
RE-Bench: ML研究性能
ML研究開発能力を評価するRE-Benchにおいて、Gemini 3.1 Proは1.27(人間基準正規化)を記録し、Gemini 3 Proの1.04から向上しました。最適化タスクを47秒で完了し、人間の参照時間94秒を大幅に下回っています。
Gemini 3.1 Pro の提供状況
Gemini 3.1 ProはGeminiアプリ、Google Cloud Vertex AI、Google AI Studio、Gemini APIで利用可能です。料金はプラットフォームによって異なります。現在プレビュー段階であり、一般提供は今後予定されています。
よくある質問
Gemini 3.1 Proとは何ですか?
Gemini 3.1 ProはClaude Opus 4.6と比べてどうですか?
Gemini 3.1 Proのthinking_levelパラメータとは何ですか?
Gemini 3.1 Proのカスタムツールエンドポイントとは何ですか?
最新情報を入手
最新のAIニュースをメールでお届けします。
