Code Velocity
Modele AI

Claude Opus 4.6: #1 w benchmarkach kodu i rozumowania

·7 min czytania·Anthropic, OpenAI·Źródło oryginalne
Udostępnij
Wykres porównawczy benchmarków Claude Opus 4.6 pokazujący pozycje #1 na Terminal-Bench 2.0, Humanity's Last Exam i GDPval-AA

Wyniki benchmarków Claude Opus 4.6

Claude Opus 4.6 to najpotężniejszy model Anthropic, ustanawiający nowe rekordy w programowaniu, rozumowaniu i pracy wiedzy. Osiąga najwyższy wynik na Terminal-Bench 2.0, wiodącym benchmarku agentowego programowania, i prowadzi wśród wszystkich modeli frontierowych na Humanity's Last Exam, teście rozumowania multidyscyplinarnego.

Dla deweloperów już korzystających z Claude Sonnet 4.6 do zadań programistycznych, Opus 4.6 reprezentuje kolejny poziom wydajności dla złożonej, wieloetapowej pracy agentowej.

Wydajność w kodzie: #1 na Terminal-Bench 2.0

Opus 4.6 poprawia umiejętności programistyczne poprzednika we wszystkich wymiarach:

  • Staranniejsze planowanie: Planuje bardziej przemyślanie przed pisaniem kodu
  • Długotrwałe zadania agentowe: Utrzymuje kontekst i jakość w dłuższych sesjach programistycznych
  • Nawigacja po dużych bazach kodu: Działa bardziej niezawodnie w złożonych, wieloplikowych projektach
  • Samokorekta: Lepsze umiejętności przeglądu kodu i debugowania do wykrywania własnych błędów

Na Terminal-Bench 2.0, który testuje rzeczywiste zadania administracji systemowej i programowania, Opus 4.6 osiąga najwyższy wynik spośród wszystkich modeli.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

BenchmarkOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

Na GDPval-AA, który mierzy wydajność w ekonomicznie wartościowej pracy wiedzy w finansach, prawie i innych dziedzinach, Opus 4.6 przewyższa GPT-5.2 o 144 punkty Elo i własnego poprzednika (Opus 4.5) o 190 punktów.

Nowe funkcje dla deweloperów w Claude Opus 4.6

Agent Teams w Claude Code

Możesz teraz tworzyć zespoły agentów do wspólnej pracy nad zadaniami w Claude Code. Wiele instancji Claude współpracuje nad różnymi częściami bazy kodu jednocześnie, przyspieszając złożone refaktoryzacje, rozwój funkcji i naprawianie błędów. Ta sama zdolność agent teams zasila Claude Code Security, który wykorzystuje wielu agentów do skanowania, weryfikacji i walidacji podatności.

Compaction dla długotrwałych zadań

Claude może teraz streszczać własny kontekst podczas długotrwałych zadań. Agentowe sesje programistyczne mogą trwać znacznie dłużej bez osiągania limitów okna kontekstowego. Dla złożonych zmian w wielu plikach obejmujących setki wywołań narzędzi, compaction utrzymuje produktywność sesji bez konieczności restartu.

Adaptacyjne myślenie

Model wychwytuje sygnały kontekstowe dotyczące potrzebnej głębokości rozumowania. Na proste pytania odpowiada szybko. Dla złożonych problemów programistycznych myśli głębiej. Deweloperzy otrzymują też nowe kontrole wysiłku do balansowania kosztu, szybkości i inteligencji na zapytanie.

Okno kontekstowe 1M tokenów

Podobnie jak Claude Sonnet 4.6, Opus 4.6 posiada okno kontekstowe 1M tokenów w wersji beta. To pierwsze takie rozwiązanie dla modeli klasy Opus, umożliwiające przetwarzanie całych dużych baz kodu w jednym zapytaniu.

Cena i dostępność Claude Opus 4.6

Opus 4.6 jest dostępny na claude.ai, API (claude-opus-4-6), Amazon Bedrock i Google Cloud Vertex AI w cenie $5/$25 za milion tokenów.

Często zadawane pytania

W jakich benchmarkach prowadzi Claude Opus 4.6?
Claude Opus 4.6 zajmuje pozycję #1 w czterech głównych benchmarkach: Terminal-Bench 2.0 dla agentowego programowania, Humanity's Last Exam dla rozumowania multidyscyplinarnego, BrowseComp dla wyszukiwania informacji i GDPval-AA dla pracy wiedzy. Na GDPval-AA przewyższa GPT-5.2 o 144 punkty Elo i swojego poprzednika Opus 4.5 o 190 punktów. Wyniki te czynią go najwyżej punktowanym modelem frontierowym zarówno w kodzie, jak i rozumowaniu według stanu na luty 2026.
Czym są agent teams w Claude Code?
Agent teams to nowa funkcja Claude Code, która pozwala wielu instancjom Claude współpracować nad zadaniami równolegle. Na przykład jeden agent może refaktoryzować moduł, podczas gdy drugi pisze testy, a trzeci aktualizuje dokumentację. To równoległe podejście przyspiesza złożone zmiany w bazie kodu, które zajęłyby znacznie więcej czasu pojedynczemu agentowi. Agent teams zostały uruchomione wraz z Opus 4.6 i działają z modelami Opus i Sonnet.
Czym jest compaction w Claude Opus 4.6?
Compaction to funkcja zarządzania kontekstem, która pozwala Claude streszczać własną historię rozmowy podczas długotrwałych zadań agentowych. Gdy sesja programistyczna zbliża się do limitu okna kontekstowego, compaction kondensuje wcześniejszy kontekst w streszczenie, aby Claude mógł kontynuować pracę bez utraty wątku zadania. Jest to szczególnie przydatne dla sesji refaktoryzacji wielu plików obejmujących setki wywołań narzędzi.
Ile kosztuje Claude Opus 4.6?
Claude Opus 4.6 kosztuje $5 za milion tokenów wejściowych i $25 za milion tokenów wyjściowych — ta sama cena co poprzednie modele Opus. Jest dostępny na claude.ai, API Anthropic z identyfikatorem modelu claude-opus-4-6, Amazon Bedrock i Google Cloud Vertex AI. Dla porównania, Claude Sonnet 4.6 oferuje podobną jakość kodu za $3/$15 za milion tokenów.

Bądź na bieżąco

Otrzymuj najnowsze wiadomości o AI na swoją skrzynkę.

Udostępnij