Mga Resulta ng Benchmark ng Gemini 3.1 Pro
Inilabas ng Google DeepMind ang Gemini 3.1 Pro noong Pebrero 19, 2026. Mahigit doble ang reasoning performance ng modelo kumpara sa predecessor nito, na nakakuha ng 77.1% sa ARC-AGI-2 kumpara sa Gemini 3 Pro.
Nakatutok ang Gemini 3.1 Pro sa mga gawain na nangangailangan ng multi-step reasoning: algorithm design, large-scale data synthesis, agentic workflow, at kumplikadong coding.
Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2
| Benchmark | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2-Codex |
|---|---|---|---|
| ARC-AGI-2 | 77.1% | — | — |
| RE-Bench (ML R&D) | 1.27 | — | — |
| Terminal-Bench 2.0 | — | #1 | 64.0% |
| Humanity's Last Exam | — | #1 | — |
| Context (input) | 1M | 200K (1M beta) | 400K |
| Context (output) | 64K | 128K | 128K |
Nangunguna ang bawat modelo sa magkakaibang lugar. Nangunguna ang Gemini 3.1 Pro sa mga novel reasoning benchmark. Nangunguna ang Claude Opus 4.6 sa agentic coding at multidisciplinary reasoning. Nag-aalok ang GPT-5.2-Codex ng competitive coding performance sa mas mababang presyo.
Mga Pangunahing Feature para sa mga Developer
Nako-configure na Thinking Depth
Nagpapakilala ang Gemini 3.1 Pro ng thinking_level parameter na kumokontrol sa lalim ng reasoning. Ang mababang thinking ay mabilis at mura para sa mga routine na gawain. Ang mataas na thinking ay naglalaan ng mas maraming computation sa mga kumplikadong problema.
Katulad ito ng effort control ng Claude Opus 4.6, bagaman inilalantad ng Gemini ang setting bilang tahasang API parameter sa halip na adaptive model behavior.
Custom Tools Endpoint
Isang hiwalay na endpoint, gemini-3.1-pro-preview-customtools, ang naka-optimize para sa mga agentic application na pinagsasama ang shell command at custom tool. Binibigyang-prayoridad nito ang tamang tool selection at invocation, na nagbabawas ng mga error kapag nakikipag-interact ang mga agent sa mga external system. Relevant ito para sa mga developer na nagtatayo ng mga agent na katulad ng GitHub Agentic Workflows, kung saan direktang nakakaapekto ang katumpakan ng tool selection sa reliability ng automation.
YouTube URL Input
Maaaring ipasa ng mga developer ang mga YouTube URL nang direkta sa mga prompt. Sinusuri ng modelo ang video content, na nagpapahintulot ng mga workflow na pinagsasama ang video understanding sa code generation o documentation.
Multimodal Processing
Pinaghahawakan ng Gemini 3.1 Pro ang text, image, audio, video, at code sa isang context. Sa 1M token input window, maaari nitong iproseso ang buong codebase o mahabang research document sa isang pass.
RE-Bench: ML Research Performance
Sa RE-Bench, na nagsusuri ng ML research at development capability, nakakuha ang Gemini 3.1 Pro ng 1.27 (human-normalized), mula sa 1.04 ng Gemini 3 Pro. Natapos ng modelo ang mga optimization task sa 47 segundo kumpara sa 94-segundong human reference.
Availability ng Gemini 3.1 Pro
Available ang Gemini 3.1 Pro sa Gemini app, Google Cloud Vertex AI, Google AI Studio, at sa Gemini API. Iba-iba ang presyo depende sa platform. Nasa preview ang modelo; inaasahang susunod ang general availability.
Orihinal na pinagmulan
https://blog.google/technology/google-deepmind/gemini-3-1-pro/Mga Karaniwang Tanong
Ano ang Gemini 3.1 Pro?
Paano ang Gemini 3.1 Pro kumpara sa Claude Opus 4.6?
Ano ang thinking_level parameter sa Gemini 3.1 Pro?
Ano ang custom tools endpoint sa Gemini 3.1 Pro?
Manatiling Updated
Kunin ang pinakabagong AI news sa iyong inbox.
