Wyniki benchmarków Claude Opus 4.6
Claude Opus 4.6 to najpotężniejszy model Anthropic, ustanawiający nowe rekordy w programowaniu, rozumowaniu i pracy wiedzy. Osiąga najwyższy wynik na Terminal-Bench 2.0, wiodącym benchmarku agentowego programowania, i prowadzi wśród wszystkich modeli frontierowych na Humanity's Last Exam, teście rozumowania multidyscyplinarnego.
Dla deweloperów już korzystających z Claude Sonnet 4.6 do zadań programistycznych, Opus 4.6 reprezentuje kolejny poziom wydajności dla złożonej, wieloetapowej pracy agentowej.
Wydajność w kodzie: #1 na Terminal-Bench 2.0
Opus 4.6 poprawia umiejętności programistyczne poprzednika we wszystkich wymiarach:
- Staranniejsze planowanie: Planuje bardziej przemyślanie przed pisaniem kodu
- Długotrwałe zadania agentowe: Utrzymuje kontekst i jakość w dłuższych sesjach programistycznych
- Nawigacja po dużych bazach kodu: Działa bardziej niezawodnie w złożonych, wieloplikowych projektach
- Samokorekta: Lepsze umiejętności przeglądu kodu i debugowania do wykrywania własnych błędów
Na Terminal-Bench 2.0, który testuje rzeczywiste zadania administracji systemowej i programowania, Opus 4.6 osiąga najwyższy wynik spośród wszystkich modeli.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Benchmark | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
Na GDPval-AA, który mierzy wydajność w ekonomicznie wartościowej pracy wiedzy w finansach, prawie i innych dziedzinach, Opus 4.6 przewyższa GPT-5.2 o 144 punkty Elo i własnego poprzednika (Opus 4.5) o 190 punktów.
Nowe funkcje dla deweloperów w Claude Opus 4.6
Agent Teams w Claude Code
Możesz teraz tworzyć zespoły agentów do wspólnej pracy nad zadaniami w Claude Code. Wiele instancji Claude współpracuje nad różnymi częściami bazy kodu jednocześnie, przyspieszając złożone refaktoryzacje, rozwój funkcji i naprawianie błędów. Ta sama zdolność agent teams zasila Claude Code Security, który wykorzystuje wielu agentów do skanowania, weryfikacji i walidacji podatności.
Compaction dla długotrwałych zadań
Claude może teraz streszczać własny kontekst podczas długotrwałych zadań. Agentowe sesje programistyczne mogą trwać znacznie dłużej bez osiągania limitów okna kontekstowego. Dla złożonych zmian w wielu plikach obejmujących setki wywołań narzędzi, compaction utrzymuje produktywność sesji bez konieczności restartu.
Adaptacyjne myślenie
Model wychwytuje sygnały kontekstowe dotyczące potrzebnej głębokości rozumowania. Na proste pytania odpowiada szybko. Dla złożonych problemów programistycznych myśli głębiej. Deweloperzy otrzymują też nowe kontrole wysiłku do balansowania kosztu, szybkości i inteligencji na zapytanie.
Okno kontekstowe 1M tokenów
Podobnie jak Claude Sonnet 4.6, Opus 4.6 posiada okno kontekstowe 1M tokenów w wersji beta. To pierwsze takie rozwiązanie dla modeli klasy Opus, umożliwiające przetwarzanie całych dużych baz kodu w jednym zapytaniu.
Cena i dostępność Claude Opus 4.6
Opus 4.6 jest dostępny na claude.ai, API (claude-opus-4-6), Amazon Bedrock i Google Cloud Vertex AI w cenie $5/$25 za milion tokenów.
Źródło oryginalne
https://www.anthropic.com/news/claude-opus-4-6Często zadawane pytania
W jakich benchmarkach prowadzi Claude Opus 4.6?
Czym są agent teams w Claude Code?
Czym jest compaction w Claude Opus 4.6?
Ile kosztuje Claude Opus 4.6?
Bądź na bieżąco
Otrzymuj najnowsze wiadomości o AI na swoją skrzynkę.
