Code Velocity
Mga Modelo ng AI

Gemini 3.1 Pro: Reasoning-First Model ng Google

·6 min basahin·Google, Google DeepMind·Orihinal na pinagmulan
I-share
Paghahambing ng benchmark ng Gemini 3.1 Pro na nagpapakita ng mga score sa ARC-AGI-2 at RE-Bench kumpara sa Gemini 3 Pro at iba pang frontier model

Mga Resulta ng Benchmark ng Gemini 3.1 Pro

Inilabas ng Google DeepMind ang Gemini 3.1 Pro noong Pebrero 19, 2026. Mahigit doble ang reasoning performance ng modelo kumpara sa predecessor nito, na nakakuha ng 77.1% sa ARC-AGI-2 kumpara sa Gemini 3 Pro.

Nakatutok ang Gemini 3.1 Pro sa mga gawain na nangangailangan ng multi-step reasoning: algorithm design, large-scale data synthesis, agentic workflow, at kumplikadong coding.

Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2

BenchmarkGemini 3.1 ProClaude Opus 4.6GPT-5.2-Codex
ARC-AGI-277.1%
RE-Bench (ML R&D)1.27
Terminal-Bench 2.0#164.0%
Humanity's Last Exam#1
Context (input)1M200K (1M beta)400K
Context (output)64K128K128K

Nangunguna ang bawat modelo sa magkakaibang lugar. Nangunguna ang Gemini 3.1 Pro sa mga novel reasoning benchmark. Nangunguna ang Claude Opus 4.6 sa agentic coding at multidisciplinary reasoning. Nag-aalok ang GPT-5.2-Codex ng competitive coding performance sa mas mababang presyo.

Mga Pangunahing Feature para sa mga Developer

Nako-configure na Thinking Depth

Nagpapakilala ang Gemini 3.1 Pro ng thinking_level parameter na kumokontrol sa lalim ng reasoning. Ang mababang thinking ay mabilis at mura para sa mga routine na gawain. Ang mataas na thinking ay naglalaan ng mas maraming computation sa mga kumplikadong problema.

Katulad ito ng effort control ng Claude Opus 4.6, bagaman inilalantad ng Gemini ang setting bilang tahasang API parameter sa halip na adaptive model behavior.

Custom Tools Endpoint

Isang hiwalay na endpoint, gemini-3.1-pro-preview-customtools, ang naka-optimize para sa mga agentic application na pinagsasama ang shell command at custom tool. Binibigyang-prayoridad nito ang tamang tool selection at invocation, na nagbabawas ng mga error kapag nakikipag-interact ang mga agent sa mga external system. Relevant ito para sa mga developer na nagtatayo ng mga agent na katulad ng GitHub Agentic Workflows, kung saan direktang nakakaapekto ang katumpakan ng tool selection sa reliability ng automation.

YouTube URL Input

Maaaring ipasa ng mga developer ang mga YouTube URL nang direkta sa mga prompt. Sinusuri ng modelo ang video content, na nagpapahintulot ng mga workflow na pinagsasama ang video understanding sa code generation o documentation.

Multimodal Processing

Pinaghahawakan ng Gemini 3.1 Pro ang text, image, audio, video, at code sa isang context. Sa 1M token input window, maaari nitong iproseso ang buong codebase o mahabang research document sa isang pass.

RE-Bench: ML Research Performance

Sa RE-Bench, na nagsusuri ng ML research at development capability, nakakuha ang Gemini 3.1 Pro ng 1.27 (human-normalized), mula sa 1.04 ng Gemini 3 Pro. Natapos ng modelo ang mga optimization task sa 47 segundo kumpara sa 94-segundong human reference.

Availability ng Gemini 3.1 Pro

Available ang Gemini 3.1 Pro sa Gemini app, Google Cloud Vertex AI, Google AI Studio, at sa Gemini API. Iba-iba ang presyo depende sa platform. Nasa preview ang modelo; inaasahang susunod ang general availability.

Mga Karaniwang Tanong

Ano ang Gemini 3.1 Pro?
Ang Gemini 3.1 Pro ay ang reasoning-optimized upgrade ng Google DeepMind sa Gemini 3 series, na inilabas noong Pebrero 19, 2026. Nakakuha ito ng 77.1% sa ARC-AGI-2, mahigit doble ng reasoning performance ng Gemini 3 Pro. Sinusuportahan ng modelo ang 1M token input context at 64K output token, at nagpapakilala ng thinking_level parameter na nagpapahintulot sa mga developer na kontrolin kung gaano kalalim mag-reason ang modelo bago sumagot.
Paano ang Gemini 3.1 Pro kumpara sa Claude Opus 4.6?
Nakatutok ang Gemini 3.1 Pro at Claude Opus 4.6 sa magkaibang lakas. Nangunguna ang Gemini 3.1 Pro sa ARC-AGI-2 (77.1%) at RE-Bench para sa ML R&D, habang hawak ng Claude Opus 4.6 ang nangunguna sa Terminal-Bench 2.0 para sa agentic coding at Humanity's Last Exam para sa multidisciplinary reasoning. Parehong nag-aalok ng 1M token context window. Depende sa workload ang pagpili: mahusay ang Gemini sa novel reasoning task, ang Claude naman sa tuloy-tuloy na coding work.
Ano ang thinking_level parameter sa Gemini 3.1 Pro?
Pinapayagan ng thinking_level parameter ang mga developer na kontrolin ang pinakamataas na lalim ng reasoning na ginagamit ng modelo bago gumawa ng sagot. Ang mababang thinking ay mas mabilis at mura para sa mga simpleng gawain. Ang mataas na thinking ay naglalaan ng mas maraming computation time para sa mga kumplikadong reasoning problem. Nagbibigay ito sa mga developer ng tahasang kontrol sa cost-speed-quality tradeoff, katulad ng effort control sa Claude Opus 4.6.
Ano ang custom tools endpoint sa Gemini 3.1 Pro?
Kasama sa Gemini 3.1 Pro ang isang hiwalay na API endpoint na tinatawag na gemini-3.1-pro-preview-customtools, na naka-optimize para sa pagbibigay-prayoridad sa custom developer tool. Kapag nagtatayo ng agentic application na may halo ng bash command at custom tool, tinitiyak ng endpoint na ito na tama ang pagpili at pag-invoke ng modelo sa tamang tool. Lubhang kapaki-pakinabang ito para sa mga developer na nagtatayo ng AI agent na kailangang makipag-interact sa external system at API.

Manatiling Updated

Kunin ang pinakabagong AI news sa iyong inbox.

I-share