Code Velocity
AI-modeller

Gemini 3.1 Pro: Googles resonemangs-fokuserade modell

·6 min läsning·Google, Google DeepMind·Originalkälla
Dela
Gemini 3.1 Pro benchmarkjämförelse som visar ARC-AGI-2- och RE-Bench-resultat jämfört med Gemini 3 Pro och andra frontiermodeller

Gemini 3.1 Pro benchmarkresultat

Google DeepMind släppte Gemini 3.1 Pro den 19 februari 2026. Modellen mer än fördubblar sin föregångares resonemangsprestanda och uppnår 77,1% på ARC-AGI-2 jämfört med Gemini 3 Pro.

Gemini 3.1 Pro riktar sig mot uppgifter som kräver flerstegsresonemang: algoritmdesign, storskalig datasyntes, agentiska arbetsflöden och komplex kodning.

Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2

BenchmarkGemini 3.1 ProClaude Opus 4.6GPT-5.2-Codex
ARC-AGI-277,1%
RE-Bench (ML FoU)1,27
Terminal-Bench 2.0#164,0%
Humanity's Last Exam#1
Kontext (indata)1M200K (1M beta)400K
Kontext (utdata)64K128K128K

Varje modell leder inom olika områden. Gemini 3.1 Pro toppar benchmarks för nya resonemangsuppgifter. Claude Opus 4.6 leder agentisk kodning och multidisciplinärt resonemang. GPT-5.2-Codex erbjuder konkurrenskraftig kodningsprestanda till lägre prissättning.

Nyckelfunktioner för utvecklare

Konfigurerbart tänkdjup

Gemini 3.1 Pro introducerar en thinking_level-parameter som styr resonemangsdjupet. Lågt tänkande är snabbt och billigt för rutinuppgifter. Högt tänkande tillämpar mer beräkning på komplexa problem.

Detta liknar Claude Opus 4.6:s ansträngningskontroller, men Gemini exponerar inställningen som en explicit API-parameter istället för adaptivt modellbeteende.

Custom Tools-endpoint

En separat endpoint, gemini-3.1-pro-preview-customtools, är optimerad för agentiska applikationer som kombinerar skalkommandon med anpassade verktyg. Den prioriterar korrekt verktygsval och anrop, vilket minskar fel när agenter interagerar med externa system. Detta är relevant för utvecklare som bygger agenter liknande GitHub Agentic Workflows, där noggrannhet i verktygsval direkt påverkar automatiseringens tillförlitlighet.

YouTube URL-indata

Utvecklare kan skicka YouTube-URL:er direkt i promptar. Modellen analyserar videoinnehåll, vilket möjliggör arbetsflöden som kombinerar videoförståelse med kodgenerering eller dokumentation.

Multimodal bearbetning

Gemini 3.1 Pro hanterar text, bilder, ljud, video och kod i en enda kontext. Med ett 1M tokens indatafönster kan den bearbeta hela kodbaser eller långa forskningsdokument i ett enda pass.

RE-Bench: Prestanda inom ML-forskning

På RE-Bench, som utvärderar ML-forsknings- och utvecklingsförmågor, uppnår Gemini 3.1 Pro 1,27 (normaliserat mot mänskliga resultat), upp från Gemini 3 Pro:s 1,04. Modellen slutförde optimeringsuppgifter på 47 sekunder jämfört med det mänskliga referensvärdet på 94 sekunder.

Gemini 3.1 Pro tillgänglighet

Gemini 3.1 Pro finns tillgänglig i Gemini-appen, Google Cloud Vertex AI, Google AI Studio och Gemini API:et. Prissättningen varierar per plattform. Modellen är i förhandsvisning; allmän tillgänglighet förväntas följa.

Vanliga frågor

Vad är Gemini 3.1 Pro?
Gemini 3.1 Pro är Google DeepMinds resonemangsoptimerade uppgradering av Gemini 3-serien, släppt den 19 februari 2026. Den uppnår 77,1% på ARC-AGI-2, mer än en fördubbling av resonemangsprestandan jämfört med Gemini 3 Pro. Modellen stöder 1M tokens indatakontext och 64K utdata-tokens, och introducerar en thinking_level-parameter som låter utvecklare styra hur djupt modellen resonerar innan den svarar.
Hur jämför sig Gemini 3.1 Pro med Claude Opus 4.6?
Gemini 3.1 Pro och Claude Opus 4.6 riktar in sig på olika styrkor. Gemini 3.1 Pro leder på ARC-AGI-2 (77,1%) och RE-Bench för ML-forskning och utveckling, medan Claude Opus 4.6 har toppositionen på Terminal-Bench 2.0 för agentisk kodning och Humanity's Last Exam för multidisciplinärt resonemang. Båda erbjuder 1M tokens kontextfönster. Valet beror på arbetsbelastningen: Gemini utmärker sig vid nya resonemangsuppgifter, Claude vid ihållande kodningsarbete.
Vad är thinking_level-parametern i Gemini 3.1 Pro?
Thinking_level-parametern låter utvecklare styra det maximala resonemangsdjupet som modellen tillämpar innan den producerar ett svar. Lågt tänkande är snabbare och billigare för enkla uppgifter. Högt tänkande allokerar mer beräkningstid för komplexa resonemangsproblem. Detta ger utvecklare explicit kontroll över avvägningen mellan kostnad, hastighet och kvalitet, liknande ansträngningskontrollerna i Claude Opus 4.6.
Vad är custom tools-endpointen i Gemini 3.1 Pro?
Gemini 3.1 Pro inkluderar en separat API-endpoint som heter gemini-3.1-pro-preview-customtools, optimerad för att prioritera anpassade utvecklarverktyg. Vid byggande av agentiska applikationer med en blandning av bash-kommandon och anpassade verktyg säkerställer denna endpoint att modellen korrekt väljer och anropar rätt verktyg. Detta är särskilt användbart för utvecklare som bygger AI-agenter som behöver interagera med externa system och API:er.

Håll dig uppdaterad

Få de senaste AI-nyheterna i din inkorg.

Dela