Claude Opus 4.6 Benchmark-Ergebnisse
Claude Opus 4.6 ist Anthropics leistungsfähigstes Modell und setzt neue Rekorde in Coding, Reasoning und Wissensarbeit. Es erzielt die Höchstpunktzahl auf Terminal-Bench 2.0, dem führenden Benchmark für agentisches Coding, und führt alle Frontier-Modelle auf Humanity's Last Exam, einem multidisziplinären Reasoning-Test.
Für Entwickler, die bereits Claude Sonnet 4.6 für Coding-Aufgaben nutzen, stellt Opus 4.6 die nächste Leistungsstufe für komplexe, mehrstufige agentische Arbeit dar.
Coding-Leistung: #1 auf Terminal-Bench 2.0
Opus 4.6 verbessert die Coding-Fähigkeiten seines Vorgängers in jeder Dimension:
- Sorgfältige Planung: Plant durchdachter bevor Code geschrieben wird
- Nachhaltige agentische Aufgaben: Behält Kontext und Qualität über längere Coding-Sessions
- Navigation in großen Codebases: Arbeitet zuverlässiger in komplexen Multi-Datei-Projekten
- Selbstkorrektur: Bessere Code-Review- und Debugging-Fähigkeiten zum Erkennen eigener Fehler
Auf Terminal-Bench 2.0, das reale Systemadministrations- und Coding-Aufgaben testet, erzielt Opus 4.6 die höchste Punktzahl aller Modelle.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Benchmark | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
Auf GDPval-AA, das die Leistung bei wirtschaftlich wertvoller Wissensarbeit in Finanzen, Recht und anderen Bereichen misst, übertrifft Opus 4.6 GPT-5.2 um 144 Elo-Punkte und seinen Vorgänger (Opus 4.5) um 190 Punkte.
Neue Entwicklerfunktionen in Claude Opus 4.6
Agent Teams in Claude Code
Sie können jetzt Agent Teams zusammenstellen, die gemeinsam an Aufgaben in Claude Code arbeiten. Mehrere Claude-Instanzen kollaborieren gleichzeitig an verschiedenen Teilen einer Codebase und beschleunigen komplexe Refactorings, Feature-Entwicklung und Fehlerbehebung. Dieselbe Agent-Teams-Fähigkeit treibt Claude Code Security an, das mehrere Agenten zum Scannen, Verifizieren und Validieren von Schwachstellen einsetzt.
Compaction für lang laufende Aufgaben
Claude kann jetzt seinen eigenen Kontext während lang laufender Aufgaben zusammenfassen. Agentische Coding-Sessions können viel länger laufen, ohne an Kontextfenster-Grenzen zu stoßen. Bei komplexen Multi-Datei-Änderungen mit Hunderten von Tool-Aufrufen hält Compaction die Session produktiv, ohne einen Neustart zu erfordern.
Adaptives Denken
Das Modell erkennt kontextuelle Hinweise darüber, wie viel erweitertes Denken angewendet werden soll. Bei einfachen Fragen antwortet es schnell. Bei komplexen Coding-Problemen denkt es tiefer nach. Entwickler erhalten zudem neue Aufwandskontrollen zur Feinabstimmung von Kosten, Geschwindigkeit und Intelligenz pro Anfrage.
1M Token Kontextfenster
Wie Claude Sonnet 4.6 bietet Opus 4.6 ein 1M Token Kontextfenster in der Beta. Dies ist eine Premiere für Opus-Klasse-Modelle und ermöglicht die Verarbeitung ganzer großer Codebases in einer einzigen Anfrage.
Claude Opus 4.6 Preise und Verfügbarkeit
Opus 4.6 ist auf claude.ai, der API (claude-opus-4-6), Amazon Bedrock und Google Cloud Vertex AI für $5/$25 pro Million Tokens verfügbar.
Originalquelle
https://www.anthropic.com/news/claude-opus-4-6Häufig gestellte Fragen
In welchen Benchmarks führt Claude Opus 4.6?
Was sind Agent Teams in Claude Code?
Was ist Compaction in Claude Opus 4.6?
Was kostet Claude Opus 4.6?
Bleiben Sie informiert
Erhalten Sie die neuesten KI-Nachrichten per E-Mail.
