نتائج معايير Claude Opus 4.6
Claude Opus 4.6 هو أقوى نموذج من Anthropic، يضع أرقاماً قياسية جديدة في البرمجة والاستدلال وعمل المعرفة. يحقق أعلى نتيجة على Terminal-Bench 2.0، المعيار الرائد للبرمجة الوكيلية، ويتصدر جميع النماذج الحدودية على Humanity's Last Exam، اختبار استدلال متعدد التخصصات.
للمطورين الذين يستخدمون بالفعل Claude Sonnet 4.6 لمهام البرمجة، يمثل Opus 4.6 المستوى التالي من الأداء للعمل الوكيلي المعقد متعدد الخطوات.
أداء البرمجة: المركز الأول على Terminal-Bench 2.0
يحسّن Opus 4.6 مهارات البرمجة لسلفه في كل بُعد:
- التخطيط المتأني: يخطط بعناية أكبر قبل كتابة الكود
- المهام الوكيلية المستدامة: يحافظ على السياق والجودة عبر جلسات برمجة أطول
- التنقل في قواعد بيانات برمجية كبيرة: يعمل بموثوقية أكبر في مشاريع معقدة متعددة الملفات
- التصحيح الذاتي: مهارات أفضل في مراجعة الكود وتصحيح الأخطاء لاكتشاف أخطائه
على Terminal-Bench 2.0، الذي يختبر مهام إدارة النظام والبرمجة الواقعية، يحقق Opus 4.6 أعلى نتيجة بين جميع النماذج.
Claude Opus 4.6 مقابل GPT-5.2 مقابل Gemini 2.5
| المعيار | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo مقابل GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
على GDPval-AA، الذي يقيس الأداء في عمل المعرفة ذي القيمة الاقتصادية في المالية والقانون ومجالات أخرى، يتفوق Opus 4.6 على GPT-5.2 بـ 144 نقطة Elo وعلى سلفه (Opus 4.5) بـ 190 نقطة.
ميزات جديدة للمطورين في Claude Opus 4.6
فرق الوكلاء في Claude Code
يمكنك الآن تجميع فرق وكلاء للعمل على المهام معاً داخل Claude Code. تتعاون عدة نسخ من Claude على أجزاء مختلفة من قاعدة البيانات البرمجية في وقت واحد، مما يسرّع إعادة الهيكلة المعقدة وتطوير الميزات وإصلاح الأخطاء. نفس قدرة فرق الوكلاء تشغّل Claude Code Security، الذي يستخدم عدة وكلاء لفحص الثغرات والتحقق منها وتأكيدها.
الضغط للمهام الطويلة
يمكن لـ Claude الآن تلخيص سياقه أثناء المهام الطويلة. هذا يعني أن جلسات البرمجة الوكيلية يمكن أن تستمر لفترة أطول بكثير دون الوصول لحدود نافذة السياق. للتغييرات المعقدة متعددة الملفات التي تتضمن مئات من استدعاءات الأدوات، يحافظ الضغط على إنتاجية الجلسة دون إعادة تشغيل.
التفكير التكيفي
يلتقط النموذج إشارات سياقية حول مقدار التفكير المعمق المطلوب. للأسئلة البسيطة، يستجيب بسرعة. لمشاكل البرمجة المعقدة، يفكر بعمق أكبر. يحصل المطورون أيضاً على أدوات تحكم جديدة لموازنة التكلفة والسرعة والذكاء لكل طلب.
نافذة سياق 1M رمز
مثل Claude Sonnet 4.6، يتميز Opus 4.6 بنافذة سياق 1M رمز في النسخة التجريبية. هذه هي المرة الأولى لنماذج فئة Opus، مما يمكّن من معالجة قواعد بيانات برمجية كاملة في طلب واحد.
تسعير وتوفر Claude Opus 4.6
Opus 4.6 متاح على claude.ai وواجهة API (claude-opus-4-6) وAmazon Bedrock وGoogle Cloud Vertex AI بسعر $5/$25 لكل مليون رمز.
المصدر الأصلي
https://www.anthropic.com/news/claude-opus-4-6الأسئلة الشائعة
ما هي المعايير التي يتصدرها Claude Opus 4.6؟
ما هي فرق الوكلاء في Claude Code؟
ما هو الضغط في Claude Opus 4.6؟
كم يكلف Claude Opus 4.6؟
ابقَ على اطلاع
احصل على آخر أخبار الذكاء الاصطناعي في بريدك.
