Claude Opus 4.6 benchmarkresultaten
Claude Opus 4.6 is Anthropic's meest capabele model en vestigt nieuwe records in code, redeneren en kenniswerk. Het behaalt de hoogste score op Terminal-Bench 2.0, de toonaangevende benchmark voor agentisch programmeren, en leidt alle frontiermodellen op Humanity's Last Exam, een multidisciplinaire redeneertest.
Voor ontwikkelaars die al Claude Sonnet 4.6 gebruiken voor programmeertaken, vertegenwoordigt Opus 4.6 het volgende prestatieniveau voor complex, meerstaps agentisch werk.
Codeerprestaties: #1 op Terminal-Bench 2.0
Opus 4.6 verbetert de programmeervaardigheden van zijn voorganger op elk vlak:
- Zorgvuldige planning: Plant doordachter voordat het code schrijft
- Langdurige agentische taken: Behoudt context en kwaliteit over langere programmeersessies
- Navigatie in grote codebases: Werkt betrouwbaarder in complexe, multi-file projecten
- Zelfcorrectie: Betere code review- en debugvaardigheden om eigen fouten op te sporen
Op Terminal-Bench 2.0, dat echte systeembeheer- en programmeertaken test, behaalt Opus 4.6 de hoogste score van alle modellen.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Benchmark | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
Op GDPval-AA, dat prestaties meet op economisch waardevol kenniswerk in financiën, juridisch en andere domeinen, overtreft Opus 4.6 GPT-5.2 met 144 Elo-punten en zijn eigen voorganger (Opus 4.5) met 190 punten.
Nieuwe ontwikkelaarsfuncties in Claude Opus 4.6
Agent Teams in Claude Code
Je kunt nu agentteams samenstellen om samen aan taken te werken in Claude Code. Meerdere Claude-instanties werken gelijktijdig aan verschillende delen van een codebase, waardoor complexe refactoring, feature-ontwikkeling en bugfixing sneller verlopen. Dezelfde agent teams-mogelijkheid ondersteunt Claude Code Security, dat meerdere agenten gebruikt om kwetsbaarheden te scannen, verifiëren en valideren.
Compaction voor langlopende taken
Claude kan nu zijn eigen context samenvatten tijdens langlopende taken. Agentische programmeersessies kunnen veel langer draaien zonder contextvensterlimieten te bereiken. Voor complexe, multi-file wijzigingen met honderden toolaanroepen houdt compaction de sessie productief zonder opnieuw te starten.
Adaptief denken
Het model pikt contextuele signalen op over hoeveel uitgebreid nadenken er nodig is. Bij eenvoudige vragen reageert het snel. Bij complexe programmeerproblemen denkt het dieper na. Ontwikkelaars krijgen ook nieuwe inspanningscontroles om kosten, snelheid en intelligentie per verzoek in balans te brengen.
1M token contextvenster
Net als Claude Sonnet 4.6 beschikt Opus 4.6 over een contextvenster van 1M tokens in bèta. Dit is een primeur voor Opus-klasse modellen en maakt het mogelijk om volledige grote codebases in één verzoek te verwerken.
Claude Opus 4.6 prijs en beschikbaarheid
Opus 4.6 is beschikbaar op claude.ai, de API (claude-opus-4-6), Amazon Bedrock en Google Cloud Vertex AI voor $5/$25 per miljoen tokens.
Originele bron
https://www.anthropic.com/news/claude-opus-4-6Veelgestelde vragen
Op welke benchmarks leidt Claude Opus 4.6?
Wat zijn agent teams in Claude Code?
Wat is compaction in Claude Opus 4.6?
Hoeveel kost Claude Opus 4.6?
Blijf op de hoogte
Ontvang het laatste AI-nieuws in je inbox.
