Code Velocity
مدل‌های هوش مصنوعی

Claude Opus 4.6: رتبه اول در بنچمارک‌های کدنویسی و استدلال

·7 دقیقه مطالعه·Anthropic, OpenAI·منبع اصلی
اشتراک‌گذاری
نمودار مقایسه بنچمارک Claude Opus 4.6 با نمایش رتبه‌های اول در Terminal-Bench 2.0، Humanity's Last Exam و GDPval-AA

نتایج بنچمارک Claude Opus 4.6

Claude Opus 4.6 توانمندترین مدل Anthropic است که رکوردهای جدیدی در کدنویسی، استدلال و کار دانشی ثبت کرده است. بالاترین امتیاز را در Terminal-Bench 2.0، بنچمارک پیشرو برای کدنویسی عاملی، کسب می‌کند و در بین تمام مدل‌های مرزی در Humanity's Last Exam، آزمون استدلال چندرشته‌ای، پیشتاز است.

برای توسعه‌دهندگانی که از Claude Sonnet 4.6 برای وظایف کدنویسی استفاده می‌کنند، Opus 4.6 سطح بعدی عملکرد برای کار عاملی پیچیده و چندمرحله‌ای را نشان می‌دهد.

عملکرد کدنویسی: رتبه اول در Terminal-Bench 2.0

Opus 4.6 مهارت‌های کدنویسی نسل قبلی را در هر بعدی بهبود می‌بخشد:

  • برنامه‌ریزی دقیق: قبل از نوشتن کد با دقت بیشتری برنامه‌ریزی می‌کند
  • وظایف عاملی مداوم: زمینه و کیفیت را در جلسات کدنویسی طولانی‌تر حفظ می‌کند
  • ناوبری در پایگاه‌های کد بزرگ: در پروژه‌های پیچیده و چندفایلی با اطمینان بیشتری عمل می‌کند
  • خوداصلاحی: مهارت‌های بهتر بازبینی کد و اشکال‌زدایی برای گرفتن اشتباهات خود

در Terminal-Bench 2.0 که وظایف واقعی مدیریت سیستم و کدنویسی را آزمایش می‌کند، Opus 4.6 بالاترین امتیاز را در بین تمام مدل‌ها کسب می‌کند.

Claude Opus 4.6 در مقابل GPT-5.2 در مقابل Gemini 2.5

بنچمارکOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo در مقابل GPT-5.2)#2#3
BrowseComp#1#2

در GDPval-AA که عملکرد در کار دانشی ارزشمند اقتصادی در مالی، حقوق و سایر حوزه‌ها را می‌سنجد، Opus 4.6 با ۱۴۴ امتیاز Elo از GPT-5.2 و ۱۹۰ امتیاز از نسل قبلی خود (Opus 4.5) پیشی می‌گیرد.

ویژگی‌های جدید توسعه‌دهندگان در Claude Opus 4.6

Agent Teams در Claude Code

اکنون می‌توانید تیم‌های عامل را برای کار مشترک روی وظایف در Claude Code تشکیل دهید. چندین نمونه Claude به‌طور همزمان روی بخش‌های مختلف پایگاه کد همکاری می‌کنند و بازسازی پیچیده، توسعه ویژگی‌ها و رفع اشکال را سرعت می‌بخشند. همان قابلیت agent teams Claude Code Security را نیرو می‌بخشد که از چندین عامل برای اسکن، تأیید و اعتبارسنجی آسیب‌پذیری‌ها استفاده می‌کند.

Compaction برای وظایف طولانی‌مدت

Claude اکنون می‌تواند زمینه خود را در حین وظایف طولانی‌مدت خلاصه کند. این بدان معناست که جلسات کدنویسی عاملی می‌توانند بدون رسیدن به محدودیت پنجره زمینه بسیار طولانی‌تر اجرا شوند. برای تغییرات پیچیده چندفایلی شامل صدها فراخوانی ابزار، compaction بهره‌وری جلسه را بدون شروع مجدد حفظ می‌کند.

تفکر تطبیقی

مدل نشانه‌های زمینه‌ای درباره میزان تفکر عمیق مورد نیاز را درک می‌کند. برای سوالات ساده سریع پاسخ می‌دهد. برای مسائل کدنویسی پیچیده عمیق‌تر فکر می‌کند. توسعه‌دهندگان همچنین کنترل‌های تلاش جدیدی برای تعادل هزینه، سرعت و هوشمندی در هر درخواست دریافت می‌کنند.

پنجره زمینه 1M توکن

مانند Claude Sonnet 4.6، Opus 4.6 پنجره زمینه 1M توکن در نسخه بتا دارد. این اولین بار برای مدل‌های کلاس Opus است و پردازش کل پایگاه‌های کد بزرگ را در یک درخواست واحد ممکن می‌سازد.

قیمت‌گذاری و دسترسی Claude Opus 4.6

Opus 4.6 در claude.ai، API (claude-opus-4-6)، Amazon Bedrock و Google Cloud Vertex AI با قیمت $5/$25 به‌ازای هر میلیون توکن در دسترس است.

سوالات متداول

Claude Opus 4.6 در کدام بنچمارک‌ها پیشتاز است؟
Claude Opus 4.6 جایگاه اول را در چهار بنچمارک اصلی دارد: Terminal-Bench 2.0 برای کدنویسی عاملی، Humanity's Last Exam برای استدلال چندرشته‌ای، BrowseComp برای بازیابی اطلاعات و GDPval-AA برای کار دانشی. در GDPval-AA، با ۱۴۴ امتیاز Elo از GPT-5.2 و ۱۹۰ امتیاز از نسل قبلی Opus 4.5 پیشی می‌گیرد. این نتایج آن را بالاترین امتیازدهنده مدل مرزی در هر دو حوزه کدنویسی و استدلال تا فوریه ۲۰۲۶ قرار می‌دهد.
agent teams در Claude Code چیست؟
agent teams ویژگی جدیدی در Claude Code است که به چندین نمونه Claude اجازه می‌دهد به‌صورت موازی روی وظایف همکاری کنند. به‌عنوان مثال، یک عامل می‌تواند یک ماژول را بازسازی کند در حالی که عامل دیگر تست‌ها را می‌نویسد و عامل سوم مستندات را به‌روز می‌کند. این رویکرد موازی تغییرات پیچیده پایگاه کد را که برای یک عامل واحد زمان بیشتری می‌برد، سرعت می‌بخشد. agent teams همراه با Opus 4.6 عرضه شد و با هر دو مدل Opus و Sonnet کار می‌کند.
compaction در Claude Opus 4.6 چیست؟
compaction ویژگی مدیریت زمینه‌ای است که به Claude اجازه می‌دهد تاریخچه مکالمه خود را در حین وظایف عاملی طولانی‌مدت خلاصه کند. وقتی یک جلسه کدنویسی به محدودیت پنجره زمینه نزدیک می‌شود، compaction زمینه قبلی را فشرده می‌کند تا Claude بتواند بدون از دست دادن رشته وظیفه به کار ادامه دهد. این به‌ویژه برای جلسات بازسازی چندفایلی که شامل صدها فراخوانی ابزار هستند مفید است.
هزینه Claude Opus 4.6 چقدر است؟
Claude Opus 4.6 هزینه‌ای معادل ۵ دلار به‌ازای هر میلیون توکن ورودی و ۲۵ دلار به‌ازای هر میلیون توکن خروجی دارد — همان قیمت مدل‌های Opus قبلی. در claude.ai، API Anthropic با شناسه مدل claude-opus-4-6، Amazon Bedrock و Google Cloud Vertex AI در دسترس است. برای مقایسه، Claude Sonnet 4.6 کیفیت کدنویسی مشابهی با قیمت $3/$15 به‌ازای هر میلیون توکن ارائه می‌دهد.

به‌روز بمانید

آخرین اخبار هوش مصنوعی را در ایمیل خود دریافت کنید.

اشتراک‌گذاری