Gemini 3.1 Pro 基准测试结果
Google DeepMind 于 2026 年 2 月 19 日发布了 Gemini 3.1 Pro。该模型的推理性能是其前代的两倍以上,在 ARC-AGI-2 上得分 77.1%,远超 Gemini 3 Pro。
Gemini 3.1 Pro 专注于需要多步推理的任务:算法设计、大规模数据综合、代理工作流和复杂编程。
Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2
| 基准测试 | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2-Codex |
|---|---|---|---|
| ARC-AGI-2 | 77.1% | — | — |
| RE-Bench (ML 研发) | 1.27 | — | — |
| Terminal-Bench 2.0 | — | #1 | 64.0% |
| Humanity's Last Exam | — | #1 | — |
| 上下文(输入) | 1M | 200K (1M beta) | 400K |
| 上下文(输出) | 64K | 128K | 128K |
每个模型在不同领域领先。Gemini 3.1 Pro 在新颖推理基准测试中居首。Claude Opus 4.6 在代理编程和跨学科推理方面领先。GPT-5.2-Codex 以更低的价格提供具有竞争力的编程性能。
开发者核心功能
可配置思考深度
Gemini 3.1 Pro 引入了 thinking_level 参数来控制推理深度。低思考深度快速且经济,适用于日常任务;高思考深度为复杂问题投入更多计算资源。
这类似于 Claude Opus 4.6 的 effort 控制,不过 Gemini 将设置作为显式 API 参数暴露,而非自适应模型行为。
自定义工具端点
独立端点 gemini-3.1-pro-preview-customtools 专门针对结合 shell 命令和自定义工具的代理应用进行了优化。它优先确保正确的工具选择和调用,减少代理与外部系统交互时的错误。这对于构建类似 GitHub Agentic Workflows 的代理的开发者尤为重要,因为工具选择的准确性直接影响自动化的可靠性。
YouTube URL 输入
开发者可以将 YouTube URL 直接传入提示词。模型会分析视频内容,实现将视频理解与代码生成或文档编写相结合的工作流。
多模态处理
Gemini 3.1 Pro 可在单一上下文中处理文本、图像、音频、视频和代码。借助 1M token 的输入窗口,它可以一次性处理整个代码库或长篇研究文档。
RE-Bench: ML 研究性能
在评估 ML 研发能力的 RE-Bench 上,Gemini 3.1 Pro 得分 1.27(人类标准化),较 Gemini 3 Pro 的 1.04 有所提升。该模型在 47 秒内完成了优化任务,而人类参考时间为 94 秒。
Gemini 3.1 Pro 可用性
Gemini 3.1 Pro 可在 Gemini 应用、Google Cloud Vertex AI、Google AI Studio 和 Gemini API 中使用。价格因平台而异。该模型目前处于预览阶段,预计后续将全面发布。
常见问题
Gemini 3.1 Pro 是什么?
Gemini 3.1 Pro 与 Claude Opus 4.6 相比如何?
Gemini 3.1 Pro 中的 thinking_level 参数是什么?
Gemini 3.1 Pro 的自定义工具端点是什么?
保持更新
将最新AI新闻发送到您的收件箱。
