نتایج بنچمارک Claude Opus 4.6
Claude Opus 4.6 توانمندترین مدل Anthropic است که رکوردهای جدیدی در کدنویسی، استدلال و کار دانشی ثبت کرده است. بالاترین امتیاز را در Terminal-Bench 2.0، بنچمارک پیشرو برای کدنویسی عاملی، کسب میکند و در بین تمام مدلهای مرزی در Humanity's Last Exam، آزمون استدلال چندرشتهای، پیشتاز است.
برای توسعهدهندگانی که از Claude Sonnet 4.6 برای وظایف کدنویسی استفاده میکنند، Opus 4.6 سطح بعدی عملکرد برای کار عاملی پیچیده و چندمرحلهای را نشان میدهد.
عملکرد کدنویسی: رتبه اول در Terminal-Bench 2.0
Opus 4.6 مهارتهای کدنویسی نسل قبلی را در هر بعدی بهبود میبخشد:
- برنامهریزی دقیق: قبل از نوشتن کد با دقت بیشتری برنامهریزی میکند
- وظایف عاملی مداوم: زمینه و کیفیت را در جلسات کدنویسی طولانیتر حفظ میکند
- ناوبری در پایگاههای کد بزرگ: در پروژههای پیچیده و چندفایلی با اطمینان بیشتری عمل میکند
- خوداصلاحی: مهارتهای بهتر بازبینی کد و اشکالزدایی برای گرفتن اشتباهات خود
در Terminal-Bench 2.0 که وظایف واقعی مدیریت سیستم و کدنویسی را آزمایش میکند، Opus 4.6 بالاترین امتیاز را در بین تمام مدلها کسب میکند.
Claude Opus 4.6 در مقابل GPT-5.2 در مقابل Gemini 2.5
| بنچمارک | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo در مقابل GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
در GDPval-AA که عملکرد در کار دانشی ارزشمند اقتصادی در مالی، حقوق و سایر حوزهها را میسنجد، Opus 4.6 با ۱۴۴ امتیاز Elo از GPT-5.2 و ۱۹۰ امتیاز از نسل قبلی خود (Opus 4.5) پیشی میگیرد.
ویژگیهای جدید توسعهدهندگان در Claude Opus 4.6
Agent Teams در Claude Code
اکنون میتوانید تیمهای عامل را برای کار مشترک روی وظایف در Claude Code تشکیل دهید. چندین نمونه Claude بهطور همزمان روی بخشهای مختلف پایگاه کد همکاری میکنند و بازسازی پیچیده، توسعه ویژگیها و رفع اشکال را سرعت میبخشند. همان قابلیت agent teams Claude Code Security را نیرو میبخشد که از چندین عامل برای اسکن، تأیید و اعتبارسنجی آسیبپذیریها استفاده میکند.
Compaction برای وظایف طولانیمدت
Claude اکنون میتواند زمینه خود را در حین وظایف طولانیمدت خلاصه کند. این بدان معناست که جلسات کدنویسی عاملی میتوانند بدون رسیدن به محدودیت پنجره زمینه بسیار طولانیتر اجرا شوند. برای تغییرات پیچیده چندفایلی شامل صدها فراخوانی ابزار، compaction بهرهوری جلسه را بدون شروع مجدد حفظ میکند.
تفکر تطبیقی
مدل نشانههای زمینهای درباره میزان تفکر عمیق مورد نیاز را درک میکند. برای سوالات ساده سریع پاسخ میدهد. برای مسائل کدنویسی پیچیده عمیقتر فکر میکند. توسعهدهندگان همچنین کنترلهای تلاش جدیدی برای تعادل هزینه، سرعت و هوشمندی در هر درخواست دریافت میکنند.
پنجره زمینه 1M توکن
مانند Claude Sonnet 4.6، Opus 4.6 پنجره زمینه 1M توکن در نسخه بتا دارد. این اولین بار برای مدلهای کلاس Opus است و پردازش کل پایگاههای کد بزرگ را در یک درخواست واحد ممکن میسازد.
قیمتگذاری و دسترسی Claude Opus 4.6
Opus 4.6 در claude.ai، API (claude-opus-4-6)، Amazon Bedrock و Google Cloud Vertex AI با قیمت $5/$25 بهازای هر میلیون توکن در دسترس است.
سوالات متداول
Claude Opus 4.6 در کدام بنچمارکها پیشتاز است؟
agent teams در Claude Code چیست؟
compaction در Claude Opus 4.6 چیست؟
هزینه Claude Opus 4.6 چقدر است؟
بهروز بمانید
آخرین اخبار هوش مصنوعی را در ایمیل خود دریافت کنید.
