Gemini 3.1 Pro benchmarkresultater
Google DeepMind lanserte Gemini 3.1 Pro 19. februar 2026. Modellen mer enn dobler forgjengeres resonneringsytelse, med 77,1 % på ARC-AGI-2 mot Gemini 3 Pro.
Gemini 3.1 Pro retter seg mot oppgaver som krever flertrinnresonnering: algoritmedesign, storskala datasyntese, agentiske arbeidsflyter og kompleks koding.
Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2
| Benchmark | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2-Codex |
|---|---|---|---|
| ARC-AGI-2 | 77,1 % | — | — |
| RE-Bench (ML FoU) | 1,27 | — | — |
| Terminal-Bench 2.0 | — | #1 | 64,0 % |
| Humanity's Last Exam | — | #1 | — |
| Kontekst (inngang) | 1M | 200K (1M beta) | 400K |
| Kontekst (utgang) | 64K | 128K | 128K |
Hver modell leder innen ulike områder. Gemini 3.1 Pro topper nye resonneringsbenchmarks. Claude Opus 4.6 leder innen agentisk koding og tverrfaglig resonnering. GPT-5.2-Codex tilbyr konkurransedyktig kodingsytelse til lavere priser.
Nøkkelfunksjoner for utviklere
Konfigurerbar tenkedybde
Gemini 3.1 Pro introduserer en thinking_level-parameter som kontrollerer resonneringsdybde. Lav tenking er rask og billig for rutineoppgaver. Høy tenking bruker mer beregning på komplekse problemer.
Dette ligner Claude Opus 4.6 sine innsatskontroller, selv om Gemini eksponerer innstillingen som en eksplisitt API-parameter i stedet for adaptiv modellatferd.
Custom Tools-endepunkt
Et separat endepunkt, gemini-3.1-pro-preview-customtools, er optimalisert for agentiske applikasjoner som kombinerer shell-kommandoer med tilpassede verktøy. Det prioriterer korrekt verktøyvalg og -aktivering, og reduserer feil når agenter samhandler med eksterne systemer. Dette er relevant for utviklere som bygger agenter likt GitHub Agentic Workflows, der nøyaktighet i verktøyvalg direkte påvirker automatiseringens pålitelighet.
YouTube URL-inngang
Utviklere kan sende YouTube-URLer direkte inn i ledetekster. Modellen analyserer videoinnhold, noe som muliggjør arbeidsflyter som kombinerer videoforståelse med kodegenerering eller dokumentasjon.
Multimodal prosessering
Gemini 3.1 Pro håndterer tekst, bilder, lyd, video og kode i én kontekst. Med et inngangskontekstvindu på 1M tokens kan den behandle hele kodebaser eller lange forskningsdokumenter i én omgang.
RE-Bench: ML-forskningsytelse
På RE-Bench, som evaluerer ML-forsknings- og utviklingsevner, scorer Gemini 3.1 Pro 1,27 (menneskelig normalisert), opp fra Gemini 3 Pros 1,04. Modellen fullførte optimaliseringsoppgaver på 47 sekunder mot 94 sekunders menneskelig referanse.
Gemini 3.1 Pro tilgjengelighet
Gemini 3.1 Pro er tilgjengelig i Gemini-appen, Google Cloud Vertex AI, Google AI Studio og Gemini API. Priser varierer etter plattform. Modellen er i forhåndsvisning; generell tilgjengelighet forventes å følge.
Opprinnelig kilde
https://blog.google/technology/google-deepmind/gemini-3-1-pro/Ofte stilte spørsmål
Hva er Gemini 3.1 Pro?
Hvordan sammenligner Gemini 3.1 Pro seg med Claude Opus 4.6?
Hva er thinking_level-parameteren i Gemini 3.1 Pro?
Hva er custom tools-endepunktet i Gemini 3.1 Pro?
Hold deg oppdatert
Få de siste AI-nyhetene i innboksen din.
