Gemini 3.1 Pro Benchmark-resultater
Google DeepMind udgav Gemini 3.1 Pro den 19. februar 2026. Modellen mere end fordobler forgængerens ræsonneringspræstation og scorer 77.1% på ARC-AGI-2 sammenlignet med Gemini 3 Pros resultat.
Gemini 3.1 Pro er designet til opgaver hvor et direkte svar ikke er nok: algoritmedesign, storstilet datasyntese, agentiske workflows og kompleks kodning.
Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2
| Benchmark | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2-Codex |
|---|---|---|---|
| ARC-AGI-2 | 77.1% | — | — |
| RE-Bench (ML R&D) | 1.27 | — | — |
| Terminal-Bench 2.0 | — | #1 | 64.0% |
| Humanity's Last Exam | — | #1 | — |
| Kontekst (input) | 1M | 200K (1M beta) | 400K |
| Kontekst (output) | 64K | 128K | 128K |
Hver model fører i forskellige områder. Gemini 3.1 Pro udmærker sig på nye ræsonneringsbenchmarks. Claude Opus 4.6 fører inden for agentisk kodning og multidisciplinær ræsonnering. GPT-5.2-Codex tilbyder konkurrencedygtig kodningspræstation til lavere pris.
Nøglefunktioner for Udviklere
Konfigurerbar Ræsonneringsdybde
Gemini 3.1 Pro introducerer en thinking_level parameter der styrer, hvor dybt modellen ræsonnerer før den svarer. Lav thinking er hurtig og billig til rutineopgaver. Høj thinking anvender mere beregning til komplekse problemer.
Det er konceptuelt lignende den adaptive tænkning og indsatskontroller i Claude Opus 4.6, selvom Geminis implementering eksponerer kontrollen som en eksplicit API-parameter snarere end adaptiv modeladfærd.
Tilpasset Værktøjs-endpoint
Et separat endpoint, gemini-3.1-pro-preview-customtools, er optimeret til agentiske applikationer der kombinerer shell-kommandoer med tilpassede værktøjer. Endpointet prioriterer korrekt værktøjsvalg og aktivering, hvilket reducerer fejl når agenter interagerer med eksterne systemer.
YouTube URL-input
Udviklere kan nu sende YouTube-URL'er direkte i prompts. Modellen analyserer videoindhold automatisk, hvilket muliggør workflows der kombinerer videoforståelse med kodegenerering eller dokumentationsopgaver.
Multimodal Behandling
Gemini 3.1 Pro håndterer tekst, billeder, lyd, video og kode i en enkelt kontekst. Med et 1M token input-vindue kan den behandle hele codebases, lange forskningsdokumenter eller dybt indlejrede workflows i én gennemgang.
RE-Bench: ML-forskningspræstation
På RE-Bench, som evaluerer ML-forsknings- og udviklingskapabiliteter, opnår Gemini 3.1 Pro en human-normaliseret score på 1.27, op fra Gemini 3 Pros 1.04. Modellen fuldførte optimeringsopgaver på 47 sekunder sammenlignet med den menneskelige reference på 94 sekunder.
Gemini 3.1 Pro Tilgængelighed
Gemini 3.1 Pro er tilgængelig i Gemini-appen, Google Cloud Vertex AI, Google AI Studio og Gemini API. Specifikke priser varierer efter platform. Modellen er i preview med generel tilgængelighed forventet snart.
Ofte stillede spørgsmål
Hvad er Gemini 3.1 Pro?
Hvordan sammenligner Gemini 3.1 Pro sig med Claude Opus 4.6?
Hvad er thinking_level parameteren i Gemini 3.1 Pro?
Hvad er det tilpassede værktøjs-endpoint i Gemini 3.1 Pro?
Hold dig opdateret
Få de seneste AI-nyheder i din indbakke.
