Code Velocity
AI 模型

Gemini 3.1 Pro: Google 的推理优先模型

·6 分钟阅读·Google, Google DeepMind·原始来源
分享
Gemini 3.1 Pro 基准测试对比图,展示 ARC-AGI-2 和 RE-Bench 分数与 Gemini 3 Pro 及其他前沿模型的比较

Gemini 3.1 Pro 基准测试结果

Google DeepMind 于 2026 年 2 月 19 日发布了 Gemini 3.1 Pro。该模型的推理性能是其前代的两倍以上,在 ARC-AGI-2 上得分 77.1%,远超 Gemini 3 Pro。

Gemini 3.1 Pro 专注于需要多步推理的任务:算法设计、大规模数据综合、代理工作流和复杂编程。

Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2

基准测试Gemini 3.1 ProClaude Opus 4.6GPT-5.2-Codex
ARC-AGI-277.1%
RE-Bench (ML 研发)1.27
Terminal-Bench 2.0#164.0%
Humanity's Last Exam#1
上下文(输入)1M200K (1M beta)400K
上下文(输出)64K128K128K

每个模型在不同领域领先。Gemini 3.1 Pro 在新颖推理基准测试中居首。Claude Opus 4.6 在代理编程和跨学科推理方面领先。GPT-5.2-Codex 以更低的价格提供具有竞争力的编程性能。

开发者核心功能

可配置思考深度

Gemini 3.1 Pro 引入了 thinking_level 参数来控制推理深度。低思考深度快速且经济,适用于日常任务;高思考深度为复杂问题投入更多计算资源。

这类似于 Claude Opus 4.6 的 effort 控制,不过 Gemini 将设置作为显式 API 参数暴露,而非自适应模型行为。

自定义工具端点

独立端点 gemini-3.1-pro-preview-customtools 专门针对结合 shell 命令和自定义工具的代理应用进行了优化。它优先确保正确的工具选择和调用,减少代理与外部系统交互时的错误。这对于构建类似 GitHub Agentic Workflows 的代理的开发者尤为重要,因为工具选择的准确性直接影响自动化的可靠性。

YouTube URL 输入

开发者可以将 YouTube URL 直接传入提示词。模型会分析视频内容,实现将视频理解与代码生成或文档编写相结合的工作流。

多模态处理

Gemini 3.1 Pro 可在单一上下文中处理文本、图像、音频、视频和代码。借助 1M token 的输入窗口,它可以一次性处理整个代码库或长篇研究文档。

RE-Bench: ML 研究性能

在评估 ML 研发能力的 RE-Bench 上,Gemini 3.1 Pro 得分 1.27(人类标准化),较 Gemini 3 Pro 的 1.04 有所提升。该模型在 47 秒内完成了优化任务,而人类参考时间为 94 秒。

Gemini 3.1 Pro 可用性

Gemini 3.1 Pro 可在 Gemini 应用、Google Cloud Vertex AI、Google AI Studio 和 Gemini API 中使用。价格因平台而异。该模型目前处于预览阶段,预计后续将全面发布。

常见问题

Gemini 3.1 Pro 是什么?
Gemini 3.1 Pro 是 Google DeepMind 针对 Gemini 3 系列推出的推理优化升级版,于 2026 年 2 月 19 日发布。该模型在 ARC-AGI-2 上得分 77.1%,推理性能是 Gemini 3 Pro 的两倍以上。支持 1M token 输入上下文和 64K 输出 token,并引入了 thinking_level 参数,允许开发者控制模型在响应前的推理深度。
Gemini 3.1 Pro 与 Claude Opus 4.6 相比如何?
Gemini 3.1 Pro 和 Claude Opus 4.6 各有优势。Gemini 3.1 Pro 在 ARC-AGI-2(77.1%)和 RE-Bench ML 研发方面领先,而 Claude Opus 4.6 在 Terminal-Bench 2.0 代理编程和 Humanity's Last Exam 跨学科推理方面保持领先。两者都提供 1M token 上下文窗口。选择取决于工作负载:Gemini 擅长新颖推理任务,Claude 擅长持续编程工作。
Gemini 3.1 Pro 中的 thinking_level 参数是什么?
thinking_level 参数允许开发者控制模型在生成响应之前的最大推理深度。低思考深度更快且更经济,适合简单任务;高思考深度为复杂推理问题分配更多计算时间。这让开发者可以明确控制成本-速度-质量的权衡,类似于 Claude Opus 4.6 中的 effort 控制。
Gemini 3.1 Pro 的自定义工具端点是什么?
Gemini 3.1 Pro 包含一个名为 gemini-3.1-pro-preview-customtools 的独立 API 端点,专门优化用于优先使用自定义开发者工具。在构建混合使用 bash 命令和自定义工具的代理应用时,此端点确保模型正确选择和调用合适的工具。这对于构建需要与外部系统和 API 交互的 AI 代理的开发者尤其有用。

保持更新

将最新AI新闻发送到您的收件箱。

分享