Code Velocity
AI-modeller

Gemini 3.1 Pro: Googles Ræsonnerings-model

·6 min læsning·Google, Google DeepMind·Original kilde
Del
Gemini 3.1 Pro benchmark-sammenligning der viser ARC-AGI-2 og RE-Bench scorer versus Gemini 3 Pro og andre frontier-modeller

Gemini 3.1 Pro Benchmark-resultater

Google DeepMind udgav Gemini 3.1 Pro den 19. februar 2026. Modellen mere end fordobler forgængerens ræsonneringspræstation og scorer 77.1% på ARC-AGI-2 sammenlignet med Gemini 3 Pros resultat.

Gemini 3.1 Pro er designet til opgaver hvor et direkte svar ikke er nok: algoritmedesign, storstilet datasyntese, agentiske workflows og kompleks kodning.

Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2

BenchmarkGemini 3.1 ProClaude Opus 4.6GPT-5.2-Codex
ARC-AGI-277.1%
RE-Bench (ML R&D)1.27
Terminal-Bench 2.0#164.0%
Humanity's Last Exam#1
Kontekst (input)1M200K (1M beta)400K
Kontekst (output)64K128K128K

Hver model fører i forskellige områder. Gemini 3.1 Pro udmærker sig på nye ræsonneringsbenchmarks. Claude Opus 4.6 fører inden for agentisk kodning og multidisciplinær ræsonnering. GPT-5.2-Codex tilbyder konkurrencedygtig kodningspræstation til lavere pris.

Nøglefunktioner for Udviklere

Konfigurerbar Ræsonneringsdybde

Gemini 3.1 Pro introducerer en thinking_level parameter der styrer, hvor dybt modellen ræsonnerer før den svarer. Lav thinking er hurtig og billig til rutineopgaver. Høj thinking anvender mere beregning til komplekse problemer.

Det er konceptuelt lignende den adaptive tænkning og indsatskontroller i Claude Opus 4.6, selvom Geminis implementering eksponerer kontrollen som en eksplicit API-parameter snarere end adaptiv modeladfærd.

Tilpasset Værktøjs-endpoint

Et separat endpoint, gemini-3.1-pro-preview-customtools, er optimeret til agentiske applikationer der kombinerer shell-kommandoer med tilpassede værktøjer. Endpointet prioriterer korrekt værktøjsvalg og aktivering, hvilket reducerer fejl når agenter interagerer med eksterne systemer.

YouTube URL-input

Udviklere kan nu sende YouTube-URL'er direkte i prompts. Modellen analyserer videoindhold automatisk, hvilket muliggør workflows der kombinerer videoforståelse med kodegenerering eller dokumentationsopgaver.

Multimodal Behandling

Gemini 3.1 Pro håndterer tekst, billeder, lyd, video og kode i en enkelt kontekst. Med et 1M token input-vindue kan den behandle hele codebases, lange forskningsdokumenter eller dybt indlejrede workflows i én gennemgang.

RE-Bench: ML-forskningspræstation

På RE-Bench, som evaluerer ML-forsknings- og udviklingskapabiliteter, opnår Gemini 3.1 Pro en human-normaliseret score på 1.27, op fra Gemini 3 Pros 1.04. Modellen fuldførte optimeringsopgaver på 47 sekunder sammenlignet med den menneskelige reference på 94 sekunder.

Gemini 3.1 Pro Tilgængelighed

Gemini 3.1 Pro er tilgængelig i Gemini-appen, Google Cloud Vertex AI, Google AI Studio og Gemini API. Specifikke priser varierer efter platform. Modellen er i preview med generel tilgængelighed forventet snart.

Ofte stillede spørgsmål

Hvad er Gemini 3.1 Pro?
Gemini 3.1 Pro er Google DeepMinds ræsonneringsoptimerede opgradering af Gemini 3-serien, udgivet den 19. februar 2026. Den scorer 77.1% på ARC-AGI-2, mere end en fordobling af Gemini 3 Pros ræsonneringspræstation. Modellen understøtter 1M token input-kontekst og 64K output-tokens og introducerer en thinking_level parameter der lader udviklere styre, hvor dybt modellen ræsonnerer før den svarer.
Hvordan sammenligner Gemini 3.1 Pro sig med Claude Opus 4.6?
Gemini 3.1 Pro og Claude Opus 4.6 har forskellige styrker. Gemini 3.1 Pro fører på ARC-AGI-2 (77.1%) og RE-Bench for ML-forskning, mens Claude Opus 4.6 har #1-positionen på Terminal-Bench 2.0 for agentisk kodning og Humanity's Last Exam for multidisciplinær ræsonnering. Begge tilbyder 1M token kontekstvinduer. Valget afhænger af opgaven: Gemini udmærker sig i nye ræsonneringsopgaver, Claude i vedvarende kodningsarbejde.
Hvad er thinking_level parameteren i Gemini 3.1 Pro?
Thinking_level parameteren lader udviklere styre den maksimale ræsonneringsdybde modellen anvender før den producerer et svar. Lav thinking er hurtigere og billigere til simple opgaver. Høj thinking allokerer mere beregningstid til komplekse problemer. Det giver udviklere eksplicit kontrol over omkostning-hastighed-kvalitet afvejningen, lignende indsatskontrollerne i Claude Opus 4.6.
Hvad er det tilpassede værktøjs-endpoint i Gemini 3.1 Pro?
Gemini 3.1 Pro inkluderer et separat API-endpoint kaldet gemini-3.1-pro-preview-customtools, optimeret til at prioritere tilpassede udviklerværktøjer. Når man bygger agentiske applikationer med en blanding af bash-kommandoer og tilpassede værktøjer, sikrer dette endpoint at modellen korrekt vælger og aktiverer det rigtige værktøj. Det er især nyttigt for udviklere der bygger AI-agenter som skal interagere med eksterne systemer og API'er.

Hold dig opdateret

Få de seneste AI-nyheder i din indbakke.

Del