Code Velocity
AI-modellen

Claude Opus 4.6: #1 in code- en redeneerbenchmarks

·7 min leestijd·Anthropic, OpenAI·Originele bron
Delen
Vergelijkende benchmarkgrafiek van Claude Opus 4.6 met #1-posities op Terminal-Bench 2.0, Humanity's Last Exam en GDPval-AA

Claude Opus 4.6 benchmarkresultaten

Claude Opus 4.6 is Anthropic's meest capabele model en vestigt nieuwe records in code, redeneren en kenniswerk. Het behaalt de hoogste score op Terminal-Bench 2.0, de toonaangevende benchmark voor agentisch programmeren, en leidt alle frontiermodellen op Humanity's Last Exam, een multidisciplinaire redeneertest.

Voor ontwikkelaars die al Claude Sonnet 4.6 gebruiken voor programmeertaken, vertegenwoordigt Opus 4.6 het volgende prestatieniveau voor complex, meerstaps agentisch werk.

Codeerprestaties: #1 op Terminal-Bench 2.0

Opus 4.6 verbetert de programmeervaardigheden van zijn voorganger op elk vlak:

  • Zorgvuldige planning: Plant doordachter voordat het code schrijft
  • Langdurige agentische taken: Behoudt context en kwaliteit over langere programmeersessies
  • Navigatie in grote codebases: Werkt betrouwbaarder in complexe, multi-file projecten
  • Zelfcorrectie: Betere code review- en debugvaardigheden om eigen fouten op te sporen

Op Terminal-Bench 2.0, dat echte systeembeheer- en programmeertaken test, behaalt Opus 4.6 de hoogste score van alle modellen.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

BenchmarkOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

Op GDPval-AA, dat prestaties meet op economisch waardevol kenniswerk in financiën, juridisch en andere domeinen, overtreft Opus 4.6 GPT-5.2 met 144 Elo-punten en zijn eigen voorganger (Opus 4.5) met 190 punten.

Nieuwe ontwikkelaarsfuncties in Claude Opus 4.6

Agent Teams in Claude Code

Je kunt nu agentteams samenstellen om samen aan taken te werken in Claude Code. Meerdere Claude-instanties werken gelijktijdig aan verschillende delen van een codebase, waardoor complexe refactoring, feature-ontwikkeling en bugfixing sneller verlopen. Dezelfde agent teams-mogelijkheid ondersteunt Claude Code Security, dat meerdere agenten gebruikt om kwetsbaarheden te scannen, verifiëren en valideren.

Compaction voor langlopende taken

Claude kan nu zijn eigen context samenvatten tijdens langlopende taken. Agentische programmeersessies kunnen veel langer draaien zonder contextvensterlimieten te bereiken. Voor complexe, multi-file wijzigingen met honderden toolaanroepen houdt compaction de sessie productief zonder opnieuw te starten.

Adaptief denken

Het model pikt contextuele signalen op over hoeveel uitgebreid nadenken er nodig is. Bij eenvoudige vragen reageert het snel. Bij complexe programmeerproblemen denkt het dieper na. Ontwikkelaars krijgen ook nieuwe inspanningscontroles om kosten, snelheid en intelligentie per verzoek in balans te brengen.

1M token contextvenster

Net als Claude Sonnet 4.6 beschikt Opus 4.6 over een contextvenster van 1M tokens in bèta. Dit is een primeur voor Opus-klasse modellen en maakt het mogelijk om volledige grote codebases in één verzoek te verwerken.

Claude Opus 4.6 prijs en beschikbaarheid

Opus 4.6 is beschikbaar op claude.ai, de API (claude-opus-4-6), Amazon Bedrock en Google Cloud Vertex AI voor $5/$25 per miljoen tokens.

Veelgestelde vragen

Op welke benchmarks leidt Claude Opus 4.6?
Claude Opus 4.6 staat op #1 in vier grote benchmarks: Terminal-Bench 2.0 voor agentisch programmeren, Humanity's Last Exam voor multidisciplinair redeneren, BrowseComp voor informatieopvraging en GDPval-AA voor kenniswerk. Op GDPval-AA overtreft het GPT-5.2 met 144 Elo-punten en zijn voorganger Opus 4.5 met 190 punten. Deze resultaten maken het het best scorende frontiermodel voor zowel code als redeneren per februari 2026.
Wat zijn agent teams in Claude Code?
Agent teams is een nieuwe functie in Claude Code waarmee meerdere Claude-instanties parallel aan taken kunnen samenwerken. Zo kan een agent een module refactoren terwijl een andere tests schrijft en een derde documentatie bijwerkt. Deze parallelle aanpak versnelt complexe codebase-wijzigingen die met een enkele agent veel langer zouden duren. Agent teams is gelanceerd samen met Opus 4.6 en werkt met zowel Opus- als Sonnet-modellen.
Wat is compaction in Claude Opus 4.6?
Compaction is een contextbeheerfunctie waarmee Claude zijn eigen gespreksgeschiedenis kan samenvatten tijdens langlopende agentische taken. Wanneer een programmeersessie de limiet van het contextvenster nadert, condenseert compaction eerdere context tot een samenvatting zodat Claude kan doorwerken zonder de taak uit het oog te verliezen. Dit is vooral nuttig voor refactoringsessies over meerdere bestanden met honderden toolaanroepen.
Hoeveel kost Claude Opus 4.6?
Claude Opus 4.6 kost $5 per miljoen invoertokens en $25 per miljoen uitvoertokens, dezelfde prijs als eerdere Opus-modellen. Het is beschikbaar op claude.ai, de Anthropic API met model-ID claude-opus-4-6, Amazon Bedrock en Google Cloud Vertex AI. Ter vergelijking: Claude Sonnet 4.6 biedt vergelijkbare codekwaliteit voor $3/$15 per miljoen tokens.

Blijf op de hoogte

Ontvang het laatste AI-nieuws in je inbox.

Delen