Claude Opus 4.6 बेंचमार्क परिणाम
Claude Opus 4.6 Anthropic का सबसे सक्षम मॉडल है, जो कोडिंग, रीज़निंग और ज्ञान कार्य में नए रिकॉर्ड स्थापित कर रहा है। यह Terminal-Bench 2.0, एजेंटिक कोडिंग के लिए प्रमुख बेंचमार्क, पर शीर्ष स्कोर प्राप्त करता है, और Humanity's Last Exam, एक बहु-विषयक रीज़निंग परीक्षण, पर सभी फ्रंटियर मॉडलों में अग्रणी है।
कोडिंग कार्यों के लिए पहले से Claude Sonnet 4.6 का उपयोग करने वाले डेवलपर्स के लिए, Opus 4.6 जटिल, मल्टी-स्टेप एजेंटिक कार्य के लिए प्रदर्शन का अगला स्तर प्रस्तुत करता है।
कोडिंग प्रदर्शन: Terminal-Bench 2.0 पर #1
Opus 4.6 अपने पूर्ववर्ती की कोडिंग क्षमताओं में हर आयाम में सुधार करता है:
- सावधानीपूर्ण योजना: कोड लिखने से पहले अधिक विचारपूर्वक योजना बनाता है
- निरंतर एजेंटिक कार्य: लंबे कोडिंग सेशन में कॉन्टेक्स्ट और गुणवत्ता बनाए रखता है
- बड़े कोडबेस नेविगेशन: जटिल, मल्टी-फ़ाइल प्रोजेक्ट में अधिक विश्वसनीय रूप से संचालित होता है
- सेल्फ-करेक्शन: अपनी गलतियों को पकड़ने के लिए बेहतर कोड रिव्यू और डिबगिंग कौशल
Terminal-Bench 2.0 पर, जो वास्तविक सिस्टम एडमिनिस्ट्रेशन और कोडिंग कार्यों का परीक्षण करता है, Opus 4.6 किसी भी मॉडल का सर्वोच्च स्कोर प्राप्त करता है।
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| बेंचमार्क | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
GDPval-AA पर, जो वित्त, कानूनी और अन्य क्षेत्रों में आर्थिक रूप से मूल्यवान ज्ञान कार्य में प्रदर्शन मापता है, Opus 4.6 GPT-5.2 को 144 Elo अंकों से और अपने पूर्ववर्ती (Opus 4.5) को 190 अंकों से पछाड़ता है।
Claude Opus 4.6 में नए डेवलपर फीचर्स
Claude Code में Agent Teams
अब आप Claude Code में कार्यों पर मिलकर काम करने के लिए agent teams बना सकते हैं। कई Claude इंस्टेंस एक साथ कोडबेस के विभिन्न हिस्सों पर सहयोग करते हैं, जटिल रिफैक्टरिंग, फीचर डेवलपमेंट और बग फ़िक्सिंग को तेज़ करते हैं। यही agent teams क्षमता Claude Code Security को शक्ति प्रदान करती है, जो वल्नरेबिलिटीज़ को स्कैन, वेरिफ़ाई और वैलिडेट करने के लिए कई एजेंट्स का उपयोग करता है।
लंबे कार्यों के लिए Compaction
Claude अब लंबे कार्यों के दौरान अपने स्वयं के कॉन्टेक्स्ट का सारांश बना सकता है। इसका मतलब है कि एजेंटिक कोडिंग सेशन कॉन्टेक्स्ट विंडो सीमाओं तक पहुँचे बिना बहुत अधिक समय तक चल सकते हैं। सैकड़ों टूल कॉल वाले जटिल, मल्टी-फ़ाइल परिवर्तनों के लिए, compaction रीस्टार्ट किए बिना सेशन को उत्पादक बनाए रखता है।
अनुकूली चिंतन
मॉडल संदर्भ से संकेत लेता है कि कितना विस्तारित चिंतन लागू करना है। सरल प्रश्नों के लिए, यह तेज़ी से उत्तर देता है। जटिल कोडिंग समस्याओं के लिए, यह अधिक गहराई से सोचता है। डेवलपर्स को प्रति अनुरोध लागत, गति और बुद्धिमत्ता को संतुलित करने के लिए नए एफ़र्ट कंट्रोल भी मिलते हैं।
1M टोकन कॉन्टेक्स्ट विंडो
Claude Sonnet 4.6 की तरह, Opus 4.6 में बीटा में 1M टोकन कॉन्टेक्स्ट विंडो है। यह Opus-क्लास मॉडलों के लिए पहली बार है, जो एक ही अनुरोध में पूरे बड़े कोडबेस को प्रोसेस करने में सक्षम बनाता है।
Claude Opus 4.6 मूल्य निर्धारण और उपलब्धता
Opus 4.6 claude.ai, API (claude-opus-4-6), Amazon Bedrock, और Google Cloud Vertex AI पर $5/$25 प्रति मिलियन टोकन पर उपलब्ध है।
अक्सर पूछे जाने वाले प्रश्न
Claude Opus 4.6 किन बेंचमार्क में अग्रणी है?
Claude Code में agent teams क्या हैं?
Claude Opus 4.6 में compaction क्या है?
Claude Opus 4.6 की कीमत क्या है?
अपडेट रहें
नवीनतम AI समाचार अपने इनबॉक्स में पाएं।
