Code Velocity
KI-Modelle

Claude Opus 4.6: #1 in Coding- und Reasoning-Benchmarks

·7 Min. Lesezeit·Anthropic, OpenAI·Originalquelle
Teilen
Claude Opus 4.6 Benchmark-Vergleichsdiagramm mit #1-Rankings auf Terminal-Bench 2.0, Humanity's Last Exam und GDPval-AA

Claude Opus 4.6 Benchmark-Ergebnisse

Claude Opus 4.6 ist Anthropics leistungsfähigstes Modell und setzt neue Rekorde in Coding, Reasoning und Wissensarbeit. Es erzielt die Höchstpunktzahl auf Terminal-Bench 2.0, dem führenden Benchmark für agentisches Coding, und führt alle Frontier-Modelle auf Humanity's Last Exam, einem multidisziplinären Reasoning-Test.

Für Entwickler, die bereits Claude Sonnet 4.6 für Coding-Aufgaben nutzen, stellt Opus 4.6 die nächste Leistungsstufe für komplexe, mehrstufige agentische Arbeit dar.

Coding-Leistung: #1 auf Terminal-Bench 2.0

Opus 4.6 verbessert die Coding-Fähigkeiten seines Vorgängers in jeder Dimension:

  • Sorgfältige Planung: Plant durchdachter bevor Code geschrieben wird
  • Nachhaltige agentische Aufgaben: Behält Kontext und Qualität über längere Coding-Sessions
  • Navigation in großen Codebases: Arbeitet zuverlässiger in komplexen Multi-Datei-Projekten
  • Selbstkorrektur: Bessere Code-Review- und Debugging-Fähigkeiten zum Erkennen eigener Fehler

Auf Terminal-Bench 2.0, das reale Systemadministrations- und Coding-Aufgaben testet, erzielt Opus 4.6 die höchste Punktzahl aller Modelle.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

BenchmarkOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

Auf GDPval-AA, das die Leistung bei wirtschaftlich wertvoller Wissensarbeit in Finanzen, Recht und anderen Bereichen misst, übertrifft Opus 4.6 GPT-5.2 um 144 Elo-Punkte und seinen Vorgänger (Opus 4.5) um 190 Punkte.

Neue Entwicklerfunktionen in Claude Opus 4.6

Agent Teams in Claude Code

Sie können jetzt Agent Teams zusammenstellen, die gemeinsam an Aufgaben in Claude Code arbeiten. Mehrere Claude-Instanzen kollaborieren gleichzeitig an verschiedenen Teilen einer Codebase und beschleunigen komplexe Refactorings, Feature-Entwicklung und Fehlerbehebung. Dieselbe Agent-Teams-Fähigkeit treibt Claude Code Security an, das mehrere Agenten zum Scannen, Verifizieren und Validieren von Schwachstellen einsetzt.

Compaction für lang laufende Aufgaben

Claude kann jetzt seinen eigenen Kontext während lang laufender Aufgaben zusammenfassen. Agentische Coding-Sessions können viel länger laufen, ohne an Kontextfenster-Grenzen zu stoßen. Bei komplexen Multi-Datei-Änderungen mit Hunderten von Tool-Aufrufen hält Compaction die Session produktiv, ohne einen Neustart zu erfordern.

Adaptives Denken

Das Modell erkennt kontextuelle Hinweise darüber, wie viel erweitertes Denken angewendet werden soll. Bei einfachen Fragen antwortet es schnell. Bei komplexen Coding-Problemen denkt es tiefer nach. Entwickler erhalten zudem neue Aufwandskontrollen zur Feinabstimmung von Kosten, Geschwindigkeit und Intelligenz pro Anfrage.

1M Token Kontextfenster

Wie Claude Sonnet 4.6 bietet Opus 4.6 ein 1M Token Kontextfenster in der Beta. Dies ist eine Premiere für Opus-Klasse-Modelle und ermöglicht die Verarbeitung ganzer großer Codebases in einer einzigen Anfrage.

Claude Opus 4.6 Preise und Verfügbarkeit

Opus 4.6 ist auf claude.ai, der API (claude-opus-4-6), Amazon Bedrock und Google Cloud Vertex AI für $5/$25 pro Million Tokens verfügbar.

Häufig gestellte Fragen

In welchen Benchmarks führt Claude Opus 4.6?
Claude Opus 4.6 belegt Platz #1 in vier wichtigen Benchmarks: Terminal-Bench 2.0 für agentisches Coding, Humanity's Last Exam für multidisziplinäres Reasoning, BrowseComp für Informationsabruf und GDPval-AA für Wissensarbeit. Auf GDPval-AA übertrifft es GPT-5.2 um 144 Elo-Punkte und seinen Vorgänger Opus 4.5 um 190 Punkte. Diese Ergebnisse machen es zum höchstbewerteten Frontier-Modell für sowohl Coding- als auch Reasoning-Aufgaben, Stand Februar 2026.
Was sind Agent Teams in Claude Code?
Agent Teams ist eine neue Funktion in Claude Code, die es mehreren Claude-Instanzen ermöglicht, parallel an Aufgaben zusammenzuarbeiten. Zum Beispiel kann ein Agent ein Modul refaktorisieren, während ein anderer Tests schreibt und ein dritter Dokumentation aktualisiert. Dieser parallele Ansatz beschleunigt komplexe Codebase-Änderungen, die ein einzelner Agent viel länger brauchen würde. Agent Teams wurden zusammen mit Opus 4.6 eingeführt und funktionieren mit Opus- und Sonnet-Modellen.
Was ist Compaction in Claude Opus 4.6?
Compaction ist eine Kontextverwaltungsfunktion, die es Claude ermöglicht, seinen eigenen Gesprächsverlauf während lang laufender agentischer Aufgaben zusammenzufassen. Wenn eine Coding-Session das Kontextfenster-Limit erreicht, verdichtet Compaction den früheren Kontext zu einer Zusammenfassung, sodass Claude weiterarbeiten kann, ohne den Aufgabenfaden zu verlieren. Dies ist besonders nützlich für Multi-Datei-Refactoring-Sessions mit Hunderten von Tool-Aufrufen und Datei-Lesevorgängen.
Was kostet Claude Opus 4.6?
Claude Opus 4.6 kostet $5 pro Million Eingabe-Tokens und $25 pro Million Ausgabe-Tokens — der gleiche Preis wie bei früheren Opus-Modellen. Es ist verfügbar auf claude.ai, der Anthropic API mit Model ID claude-opus-4-6, Amazon Bedrock und Google Cloud Vertex AI. Zum Vergleich: Claude Sonnet 4.6 bietet ähnliche Coding-Qualität zu $3/$15 pro Million Tokens.

Bleiben Sie informiert

Erhalten Sie die neuesten KI-Nachrichten per E-Mail.

Teilen