Gemini 3.1 Pro: Google 的推理优先模型

Gemini 3.1 Pro 基准测试结果

Google DeepMind 于 2026 年 2 月 19 日发布了 Gemini 3.1 Pro。该模型的推理性能是其前代的两倍以上，在 ARC-AGI-2 上得分 77.1%，远超 Gemini 3 Pro。

Gemini 3.1 Pro 专注于需要多步推理的任务：算法设计、大规模数据综合、代理工作流和复杂编程。

Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2

基准测试	Gemini 3.1 Pro	Claude Opus 4.6	GPT-5.2-Codex
ARC-AGI-2	77.1%	—	—
RE-Bench (ML 研发)	1.27	—	—
Terminal-Bench 2.0	—	#1	64.0%
Humanity's Last Exam	—	#1	—
上下文（输入）	1M	200K (1M beta)	400K
上下文（输出）	64K	128K	128K

每个模型在不同领域领先。Gemini 3.1 Pro 在新颖推理基准测试中居首。Claude Opus 4.6 在代理编程和跨学科推理方面领先。GPT-5.2-Codex 以更低的价格提供具有竞争力的编程性能。

开发者核心功能

可配置思考深度

Gemini 3.1 Pro 引入了 thinking_level 参数来控制推理深度。低思考深度快速且经济，适用于日常任务；高思考深度为复杂问题投入更多计算资源。

这类似于 Claude Opus 4.6 的 effort 控制，不过 Gemini 将设置作为显式 API 参数暴露，而非自适应模型行为。

自定义工具端点

独立端点 gemini-3.1-pro-preview-customtools 专门针对结合 shell 命令和自定义工具的代理应用进行了优化。它优先确保正确的工具选择和调用，减少代理与外部系统交互时的错误。这对于构建类似 GitHub Agentic Workflows 的代理的开发者尤为重要，因为工具选择的准确性直接影响自动化的可靠性。

YouTube URL 输入

开发者可以将 YouTube URL 直接传入提示词。模型会分析视频内容，实现将视频理解与代码生成或文档编写相结合的工作流。

多模态处理

Gemini 3.1 Pro 可在单一上下文中处理文本、图像、音频、视频和代码。借助 1M token 的输入窗口，它可以一次性处理整个代码库或长篇研究文档。

RE-Bench: ML 研究性能

在评估 ML 研发能力的 RE-Bench 上，Gemini 3.1 Pro 得分 1.27（人类标准化），较 Gemini 3 Pro 的 1.04 有所提升。该模型在 47 秒内完成了优化任务，而人类参考时间为 94 秒。

Gemini 3.1 Pro 可用性

Gemini 3.1 Pro 可在 Gemini 应用、Google Cloud Vertex AI、Google AI Studio 和 Gemini API 中使用。价格因平台而异。该模型目前处于预览阶段，预计后续将全面发布。

常见问题

Gemini 3.1 Pro 是什么？

Gemini 3.1 Pro 是 Google DeepMind 针对 Gemini 3 系列推出的推理优化升级版，于 2026 年 2 月 19 日发布。该模型在 ARC-AGI-2 上得分 77.1%，推理性能是 Gemini 3 Pro 的两倍以上。支持 1M token 输入上下文和 64K 输出 token，并引入了 thinking_level 参数，允许开发者控制模型在响应前的推理深度。

Gemini 3.1 Pro 与 Claude Opus 4.6 相比如何？

Gemini 3.1 Pro 和 Claude Opus 4.6 各有优势。Gemini 3.1 Pro 在 ARC-AGI-2（77.1%）和 RE-Bench ML 研发方面领先，而 Claude Opus 4.6 在 Terminal-Bench 2.0 代理编程和 Humanity's Last Exam 跨学科推理方面保持领先。两者都提供 1M token 上下文窗口。选择取决于工作负载：Gemini 擅长新颖推理任务，Claude 擅长持续编程工作。

Gemini 3.1 Pro 中的 thinking_level 参数是什么？

thinking_level 参数允许开发者控制模型在生成响应之前的最大推理深度。低思考深度更快且更经济，适合简单任务；高思考深度为复杂推理问题分配更多计算时间。这让开发者可以明确控制成本-速度-质量的权衡，类似于 Claude Opus 4.6 中的 effort 控制。

Gemini 3.1 Pro 的自定义工具端点是什么？

Gemini 3.1 Pro 包含一个名为 gemini-3.1-pro-preview-customtools 的独立 API 端点，专门优化用于优先使用自定义开发者工具。在构建混合使用 bash 命令和自定义工具的代理应用时，此端点确保模型正确选择和调用合适的工具。这对于构建需要与外部系统和 API 交互的 AI 代理的开发者尤其有用。