Code Velocity
AI-modellen

Gemini 3.1 Pro: Googles Reasoning-First Model

·6 min leestijd·Google, Google DeepMind·Originele bron
Delen
Benchmarkvergelijking van Gemini 3.1 Pro met ARC-AGI-2- en RE-Bench-scores versus Gemini 3 Pro en andere frontiermodellen

Gemini 3.1 Pro Benchmarkresultaten

Google DeepMind heeft Gemini 3.1 Pro op 19 februari 2026 uitgebracht. Het model verdubbelt de redeneerperformance van zijn voorganger ruimschoots en scoort 77.1% op ARC-AGI-2 ten opzichte van Gemini 3 Pro.

Gemini 3.1 Pro richt zich op taken die meerstaps redeneren vereisen: algoritmeontwerp, grootschalige datasynthese, agentische workflows en complexe programmering.

Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2

BenchmarkGemini 3.1 ProClaude Opus 4.6GPT-5.2-Codex
ARC-AGI-277.1%
RE-Bench (ML R&D)1.27
Terminal-Bench 2.0#164.0%
Humanity's Last Exam#1
Context (invoer)1M200K (1M beta)400K
Context (uitvoer)64K128K128K

Elk model leidt in verschillende gebieden. Gemini 3.1 Pro staat bovenaan bij nieuwe redeneerbenchmarks. Claude Opus 4.6 leidt bij agentisch coderen en multidisciplinair redeneren. GPT-5.2-Codex biedt concurrerende codeerprestaties tegen een lagere prijs.

Belangrijke Functies voor Ontwikkelaars

Configureerbare Denkdiepte

Gemini 3.1 Pro introduceert een thinking_level-parameter om de redeneerdiepte te regelen. Laag denken is snel en goedkoop voor routinetaken. Hoog denken besteedt meer rekenkracht aan complexe problemen.

Dit is vergelijkbaar met de effort-controles van Claude Opus 4.6, hoewel Gemini de instelling als een expliciet API-parameter aanbiedt in plaats van adaptief modelgedrag.

Custom Tools-Endpoint

Een apart endpoint, gemini-3.1-pro-preview-customtools, is geoptimaliseerd voor agentische applicaties die shell-commando's combineren met aangepaste tools. Het geeft prioriteit aan correcte toolselectie en -aanroep, waardoor fouten worden verminderd wanneer agenten communiceren met externe systemen. Dit is relevant voor ontwikkelaars die agenten bouwen vergelijkbaar met GitHub Agentic Workflows, waar de nauwkeurigheid van toolselectie direct de betrouwbaarheid van automatisering beïnvloedt.

YouTube URL-Invoer

Ontwikkelaars kunnen YouTube-URL's direct in prompts invoeren. Het model analyseert videocontent, waardoor workflows mogelijk worden die videobegrip combineren met codegeneratie of documentatie.

Multimodale Verwerking

Gemini 3.1 Pro verwerkt tekst, afbeeldingen, audio, video en code in één context. Met een 1M token-invoervenster kan het volledige codebases of lange onderzoeksdocumenten in één keer verwerken.

RE-Bench: ML-Onderzoeksprestaties

Op RE-Bench, dat ML-onderzoeks- en ontwikkelcapaciteiten evalueert, scoort Gemini 3.1 Pro 1.27 (menselijk genormaliseerd), omhoog van 1.04 bij Gemini 3 Pro. Het model voltooide optimalisatietaken in 47 seconden versus de 94 seconden menselijke referentie.

Beschikbaarheid van Gemini 3.1 Pro

Gemini 3.1 Pro is beschikbaar in de Gemini-app, Google Cloud Vertex AI, Google AI Studio en de Gemini API. Prijzen variëren per platform. Het model is in preview; algemene beschikbaarheid wordt verwacht.

Veelgestelde vragen

Wat is Gemini 3.1 Pro?
Gemini 3.1 Pro is Google DeepMinds reasoning-geoptimaliseerde upgrade van de Gemini 3-serie, uitgebracht op 19 februari 2026. Het scoort 77.1% op ARC-AGI-2, meer dan een verdubbeling van de redeneerperformance van Gemini 3 Pro. Het model ondersteunt een 1M token-invoercontext en 64K outputtokens, en introduceert een thinking_level-parameter waarmee ontwikkelaars kunnen bepalen hoe diep het model redeneert voordat het antwoordt.
Hoe verhoudt Gemini 3.1 Pro zich tot Claude Opus 4.6?
Gemini 3.1 Pro en Claude Opus 4.6 blinken uit op verschillende vlakken. Gemini 3.1 Pro leidt op ARC-AGI-2 (77.1%) en RE-Bench voor ML-onderzoek, terwijl Claude Opus 4.6 de toppositie inneemt op Terminal-Bench 2.0 voor agentisch coderen en Humanity's Last Exam voor multidisciplinair redeneren. Beide bieden 1M token-contextvensters. De keuze hangt af van de werklast: Gemini excelleert in nieuwe redeneergegevens, Claude in aanhoudend programmeerwerk.
Wat is de thinking_level-parameter in Gemini 3.1 Pro?
De thinking_level-parameter stelt ontwikkelaars in staat de maximale denkdiepte te bepalen die het model toepast voordat het een antwoord genereert. Laag denken is sneller en goedkoper voor eenvoudige taken. Hoog denken wijst meer rekentijd toe aan complexe redeneerproblemen. Dit geeft ontwikkelaars expliciete controle over de kosten-snelheid-kwaliteitsafweging, vergelijkbaar met de effort-controles in Claude Opus 4.6.
Wat is het custom tools-endpoint in Gemini 3.1 Pro?
Gemini 3.1 Pro bevat een apart API-endpoint genaamd gemini-3.1-pro-preview-customtools, geoptimaliseerd voor het prioriteren van aangepaste ontwikkeltools. Bij het bouwen van agentische applicaties met een mix van bash-commando's en aangepaste tools zorgt dit endpoint ervoor dat het model de juiste tool correct selecteert en aanroept. Dit is vooral nuttig voor ontwikkelaars die AI-agenten bouwen die moeten communiceren met externe systemen en API's.

Blijf op de hoogte

Ontvang het laatste AI-nieuws in je inbox.

Delen