Gemini 3.1 Pro benchmarkresultat
Google DeepMind släppte Gemini 3.1 Pro den 19 februari 2026. Modellen mer än fördubblar sin föregångares resonemangsprestanda och uppnår 77,1% på ARC-AGI-2 jämfört med Gemini 3 Pro.
Gemini 3.1 Pro riktar sig mot uppgifter som kräver flerstegsresonemang: algoritmdesign, storskalig datasyntes, agentiska arbetsflöden och komplex kodning.
Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2
| Benchmark | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2-Codex |
|---|---|---|---|
| ARC-AGI-2 | 77,1% | — | — |
| RE-Bench (ML FoU) | 1,27 | — | — |
| Terminal-Bench 2.0 | — | #1 | 64,0% |
| Humanity's Last Exam | — | #1 | — |
| Kontext (indata) | 1M | 200K (1M beta) | 400K |
| Kontext (utdata) | 64K | 128K | 128K |
Varje modell leder inom olika områden. Gemini 3.1 Pro toppar benchmarks för nya resonemangsuppgifter. Claude Opus 4.6 leder agentisk kodning och multidisciplinärt resonemang. GPT-5.2-Codex erbjuder konkurrenskraftig kodningsprestanda till lägre prissättning.
Nyckelfunktioner för utvecklare
Konfigurerbart tänkdjup
Gemini 3.1 Pro introducerar en thinking_level-parameter som styr resonemangsdjupet. Lågt tänkande är snabbt och billigt för rutinuppgifter. Högt tänkande tillämpar mer beräkning på komplexa problem.
Detta liknar Claude Opus 4.6:s ansträngningskontroller, men Gemini exponerar inställningen som en explicit API-parameter istället för adaptivt modellbeteende.
Custom Tools-endpoint
En separat endpoint, gemini-3.1-pro-preview-customtools, är optimerad för agentiska applikationer som kombinerar skalkommandon med anpassade verktyg. Den prioriterar korrekt verktygsval och anrop, vilket minskar fel när agenter interagerar med externa system. Detta är relevant för utvecklare som bygger agenter liknande GitHub Agentic Workflows, där noggrannhet i verktygsval direkt påverkar automatiseringens tillförlitlighet.
YouTube URL-indata
Utvecklare kan skicka YouTube-URL:er direkt i promptar. Modellen analyserar videoinnehåll, vilket möjliggör arbetsflöden som kombinerar videoförståelse med kodgenerering eller dokumentation.
Multimodal bearbetning
Gemini 3.1 Pro hanterar text, bilder, ljud, video och kod i en enda kontext. Med ett 1M tokens indatafönster kan den bearbeta hela kodbaser eller långa forskningsdokument i ett enda pass.
RE-Bench: Prestanda inom ML-forskning
På RE-Bench, som utvärderar ML-forsknings- och utvecklingsförmågor, uppnår Gemini 3.1 Pro 1,27 (normaliserat mot mänskliga resultat), upp från Gemini 3 Pro:s 1,04. Modellen slutförde optimeringsuppgifter på 47 sekunder jämfört med det mänskliga referensvärdet på 94 sekunder.
Gemini 3.1 Pro tillgänglighet
Gemini 3.1 Pro finns tillgänglig i Gemini-appen, Google Cloud Vertex AI, Google AI Studio och Gemini API:et. Prissättningen varierar per plattform. Modellen är i förhandsvisning; allmän tillgänglighet förväntas följa.
Vanliga frågor
Vad är Gemini 3.1 Pro?
Hur jämför sig Gemini 3.1 Pro med Claude Opus 4.6?
Vad är thinking_level-parametern i Gemini 3.1 Pro?
Vad är custom tools-endpointen i Gemini 3.1 Pro?
Håll dig uppdaterad
Få de senaste AI-nyheterna i din inkorg.
