Claude Opus 4.6 किन बेंचमार्क में अग्रणी है?

Claude Opus 4.6 चार प्रमुख बेंचमार्क पर #1 स्थान रखता है: एजेंटिक कोडिंग के लिए Terminal-Bench 2.0, बहु-विषयक रीज़निंग के लिए Humanity's Last Exam, सूचना पुनर्प्राप्ति के लिए BrowseComp, और ज्ञान कार्य के लिए GDPval-AA। GDPval-AA पर, यह GPT-5.2 को 144 Elo अंकों से और अपने पूर्ववर्ती Opus 4.5 को 190 अंकों से पछाड़ता है। ये परिणाम इसे फरवरी 2026 तक कोडिंग और रीज़निंग दोनों कार्यों में सर्वोच्च स्कोरिंग फ्रंटियर मॉडल बनाते हैं।

Claude Code में agent teams क्या हैं?

Agent teams Claude Code में एक नई सुविधा है जो कई Claude इंस्टेंस को समानांतर में कार्यों पर सहयोग करने देती है। उदाहरण के लिए, एक एजेंट एक मॉड्यूल को रिफैक्टर कर सकता है जबकि दूसरा टेस्ट लिखता है और तीसरा डॉक्यूमेंटेशन अपडेट करता है। यह समानांतर दृष्टिकोण जटिल कोडबेस परिवर्तनों को तेज़ करता है जो एक अकेले एजेंट को बहुत अधिक समय लगाते। Agent teams Opus 4.6 के साथ लॉन्च हुए और Opus और Sonnet दोनों मॉडलों के साथ काम करते हैं।

Claude Opus 4.6 में compaction क्या है?

Compaction एक कॉन्टेक्स्ट प्रबंधन सुविधा है जो Claude को लंबे एजेंटिक कार्यों के दौरान अपने स्वयं के बातचीत इतिहास का सारांश बनाने देती है। जब कोडिंग सेशन कॉन्टेक्स्ट विंडो सीमा के करीब पहुँचता है, तो compaction पहले के कॉन्टेक्स्ट को एक सारांश में संघनित करता है ताकि Claude कार्य का ट्रैक खोए बिना काम जारी रख सके। यह विशेष रूप से मल्टी-फ़ाइल रिफैक्टरिंग सेशन के लिए उपयोगी है जिनमें सैकड़ों टूल कॉल शामिल होते हैं।

Claude Opus 4.6 की कीमत क्या है?

Claude Opus 4.6 की कीमत $5 प्रति मिलियन इनपुट टोकन और $25 प्रति मिलियन आउटपुट टोकन है, पिछले Opus मॉडलों के समान। यह claude.ai, Anthropic API (मॉडल ID claude-opus-4-6), Amazon Bedrock, और Google Cloud Vertex AI पर उपलब्ध है। तुलना के लिए, Claude Sonnet 4.6 $3/$15 प्रति मिलियन टोकन पर समान कोडिंग गुणवत्ता प्रदान करता है।

Claude Opus 4.6: कोडिंग और रीज़निंग बेंचमार्क में #1

Claude Opus 4.6 बेंचमार्क परिणाम

Claude Opus 4.6 Anthropic का सबसे सक्षम मॉडल है, जो कोडिंग, रीज़निंग और ज्ञान कार्य में नए रिकॉर्ड स्थापित कर रहा है। यह Terminal-Bench 2.0, एजेंटिक कोडिंग के लिए प्रमुख बेंचमार्क, पर शीर्ष स्कोर प्राप्त करता है, और Humanity's Last Exam, एक बहु-विषयक रीज़निंग परीक्षण, पर सभी फ्रंटियर मॉडलों में अग्रणी है।

कोडिंग कार्यों के लिए पहले से Claude Sonnet 4.6 का उपयोग करने वाले डेवलपर्स के लिए, Opus 4.6 जटिल, मल्टी-स्टेप एजेंटिक कार्य के लिए प्रदर्शन का अगला स्तर प्रस्तुत करता है।

कोडिंग प्रदर्शन: Terminal-Bench 2.0 पर #1

Opus 4.6 अपने पूर्ववर्ती की कोडिंग क्षमताओं में हर आयाम में सुधार करता है:

सावधानीपूर्ण योजना: कोड लिखने से पहले अधिक विचारपूर्वक योजना बनाता है
निरंतर एजेंटिक कार्य: लंबे कोडिंग सेशन में कॉन्टेक्स्ट और गुणवत्ता बनाए रखता है
बड़े कोडबेस नेविगेशन: जटिल, मल्टी-फ़ाइल प्रोजेक्ट में अधिक विश्वसनीय रूप से संचालित होता है
सेल्फ-करेक्शन: अपनी गलतियों को पकड़ने के लिए बेहतर कोड रिव्यू और डिबगिंग कौशल

Terminal-Bench 2.0 पर, जो वास्तविक सिस्टम एडमिनिस्ट्रेशन और कोडिंग कार्यों का परीक्षण करता है, Opus 4.6 किसी भी मॉडल का सर्वोच्च स्कोर प्राप्त करता है।

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

बेंचमार्क	Opus 4.6	GPT-5.2	Gemini 2.5
Terminal-Bench 2.0	#1	#2	#3
Humanity's Last Exam	#1	#3	#2
GDPval-AA	#1 (+144 Elo vs GPT-5.2)	#2	#3
BrowseComp	#1	#2	—

GDPval-AA पर, जो वित्त, कानूनी और अन्य क्षेत्रों में आर्थिक रूप से मूल्यवान ज्ञान कार्य में प्रदर्शन मापता है, Opus 4.6 GPT-5.2 को 144 Elo अंकों से और अपने पूर्ववर्ती (Opus 4.5) को 190 अंकों से पछाड़ता है।

Claude Opus 4.6 में नए डेवलपर फीचर्स

Claude Code में Agent Teams

अब आप Claude Code में कार्यों पर मिलकर काम करने के लिए agent teams बना सकते हैं। कई Claude इंस्टेंस एक साथ कोडबेस के विभिन्न हिस्सों पर सहयोग करते हैं, जटिल रिफैक्टरिंग, फीचर डेवलपमेंट और बग फ़िक्सिंग को तेज़ करते हैं। यही agent teams क्षमता Claude Code Security को शक्ति प्रदान करती है, जो वल्नरेबिलिटीज़ को स्कैन, वेरिफ़ाई और वैलिडेट करने के लिए कई एजेंट्स का उपयोग करता है।

लंबे कार्यों के लिए Compaction

Claude अब लंबे कार्यों के दौरान अपने स्वयं के कॉन्टेक्स्ट का सारांश बना सकता है। इसका मतलब है कि एजेंटिक कोडिंग सेशन कॉन्टेक्स्ट विंडो सीमाओं तक पहुँचे बिना बहुत अधिक समय तक चल सकते हैं। सैकड़ों टूल कॉल वाले जटिल, मल्टी-फ़ाइल परिवर्तनों के लिए, compaction रीस्टार्ट किए बिना सेशन को उत्पादक बनाए रखता है।

अनुकूली चिंतन

मॉडल संदर्भ से संकेत लेता है कि कितना विस्तारित चिंतन लागू करना है। सरल प्रश्नों के लिए, यह तेज़ी से उत्तर देता है। जटिल कोडिंग समस्याओं के लिए, यह अधिक गहराई से सोचता है। डेवलपर्स को प्रति अनुरोध लागत, गति और बुद्धिमत्ता को संतुलित करने के लिए नए एफ़र्ट कंट्रोल भी मिलते हैं।

1M टोकन कॉन्टेक्स्ट विंडो

Claude Sonnet 4.6 की तरह, Opus 4.6 में बीटा में 1M टोकन कॉन्टेक्स्ट विंडो है। यह Opus-क्लास मॉडलों के लिए पहली बार है, जो एक ही अनुरोध में पूरे बड़े कोडबेस को प्रोसेस करने में सक्षम बनाता है।

Claude Opus 4.6 मूल्य निर्धारण और उपलब्धता

Opus 4.6 claude.ai, API (claude-opus-4-6), Amazon Bedrock, और Google Cloud Vertex AI पर $5/$25 प्रति मिलियन टोकन पर उपलब्ध है।