Claude Opus 4.6 Benchmark Sonuçları
Claude Opus 4.6, Anthropic'in en yetenekli modeli olup kodlama, akıl yürütme ve bilgi çalışmasında yeni rekorlar kırmaktadır. Ajantik kodlama için önde gelen benchmark olan Terminal-Bench 2.0'da en yüksek puanı elde eder ve çok disiplinli bir akıl yürütme testi olan Humanity's Last Exam'da tüm sınır modelleri arasında liderdir.
Kodlama görevleri için zaten Claude Sonnet 4.6 kullanan geliştiriciler için Opus 4.6, karmaşık, çok adımlı ajantik çalışmalar için bir üst performans seviyesini temsil eder.
Kodlama Performansı: Terminal-Bench 2.0'da #1
Opus 4.6, selefinin kodlama becerilerini her boyutta geliştirir:
- Dikkatli planlama: Kod yazmadan önce daha düşünceli planlama yapar
- Sürdürülebilir ajantik görevler: Daha uzun kodlama oturumlarında bağlam ve kaliteyi korur
- Büyük kod tabanı navigasyonu: Karmaşık, çok dosyalı projelerde daha güvenilir çalışır
- Öz düzeltme: Kendi hatalarını yakalamak için daha iyi kod inceleme ve hata ayıklama becerileri
Gerçek dünya sistem yönetimi ve kodlama görevlerini test eden Terminal-Bench 2.0'da Opus 4.6, tüm modeller arasında en yüksek puanı elde eder.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Benchmark | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
Finans, hukuk ve diğer alanlardaki ekonomik değeri yüksek bilgi çalışması performansını ölçen GDPval-AA'da Opus 4.6, GPT-5.2'yi 144 Elo puanıyla ve kendi selefini (Opus 4.5) 190 puanla geride bırakır.
Claude Opus 4.6'da Geliştiriciler İçin Yeni Özellikler
Claude Code'da Agent Teams
Artık Claude Code içinde görevlerde birlikte çalışmak üzere ajan takımları oluşturabilirsiniz. Birden fazla Claude örneği, bir kod tabanının farklı bölümlerinde eşzamanlı olarak işbirliği yaparak karmaşık yeniden düzenlemeleri, özellik geliştirmeyi ve hata düzeltmeyi hızlandırır. Aynı agent teams yeteneği, güvenlik açıklarını taramak, doğrulamak ve onaylamak için birden fazla ajan kullanan Claude Code Security'yi de güçlendirir.
Uzun Süreli Görevler İçin Compaction
Claude artık uzun süreli görevler sırasında kendi bağlamını özetleyebilir. Bu, ajantik kodlama oturumlarının bağlam penceresi sınırlarına takılmadan çok daha uzun süre çalışabileceği anlamına gelir. Yüzlerce araç çağrısı içeren karmaşık, çok dosyalı değişiklikler için compaction, yeniden başlatmaya gerek kalmadan oturumu verimli tutar.
Uyarlanabilir Düşünme
Model, ne kadar genişletilmiş düşünme uygulanacağına dair bağlamsal ipuçlarını yakalar. Basit sorular için hızlı yanıt verir. Karmaşık kodlama sorunları için daha derinlemesine düşünür. Geliştiriciler ayrıca istek başına maliyet, hız ve zeka dengesini kurmak için yeni çaba kontrolleri elde eder.
1M Token Bağlam Penceresi
Claude Sonnet 4.6 gibi, Opus 4.6 da beta'da 1M token bağlam penceresine sahiptir. Bu, Opus sınıfı modeller için bir ilktir ve tüm büyük kod tabanlarının tek bir istekte işlenmesini mümkün kılar.
Claude Opus 4.6 Fiyatlandırma ve Kullanılabilirlik
Opus 4.6; claude.ai, API (claude-opus-4-6), Amazon Bedrock ve Google Cloud Vertex AI'da milyon token başına $5/$25 fiyatla mevcuttur.
Orijinal kaynak
https://www.anthropic.com/news/claude-opus-4-6Sık Sorulan Sorular
Claude Opus 4.6 hangi benchmark'larda lider?
Claude Code'da agent teams nedir?
Claude Opus 4.6'da compaction nedir?
Claude Opus 4.6'nın maliyeti ne kadar?
Güncel Kalın
En son yapay zeka haberlerini e-postanıza alın.
