תוצאות הבנצ'מרק של Claude Opus 4.6
Claude Opus 4.6 הוא המודל החזק ביותר של Anthropic, שקובע שיאים חדשים בתכנות, חשיבה ועבודת ידע. הוא משיג את הציון הגבוה ביותר ב-Terminal-Bench 2.0, הבנצ'מרק המוביל לתכנות אגנטי, ומוביל את כל מודלי החזית ב-Humanity's Last Exam, מבחן חשיבה רב-תחומי.
למפתחים שכבר משתמשים ב-Claude Sonnet 4.6 למשימות תכנות, Opus 4.6 מייצג את הרמה הבאה של ביצועים לעבודה אגנטית מורכבת ורב-שלבית.
ביצועי תכנות: #1 ב-Terminal-Bench 2.0
Opus 4.6 משפר את כישורי התכנות של קודמו בכל ממד:
- תכנון קפדני: מתכנן בצורה מעמיקה יותר לפני כתיבת קוד
- משימות אגנטיות מתמשכות: שומר על הקשר ואיכות לאורך סשנים ארוכים יותר
- ניווט בבסיסי קוד גדולים: פועל באמינות רבה יותר בפרויקטים מורכבים וחוצי קבצים
- תיקון עצמי: כישורי סקירת קוד ודיבוג משופרים לזיהוי שגיאותיו
ב-Terminal-Bench 2.0, שבודק משימות ניהול מערכות ותכנות מהעולם האמיתי, Opus 4.6 משיג את הציון הגבוה ביותר מכל מודל.
Claude Opus 4.6 מול GPT-5.2 מול Gemini 2.5
| בנצ'מרק | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo מול GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
ב-GDPval-AA, שמודד ביצועים בעבודת ידע בעלת ערך כלכלי בפיננסים, משפטים ותחומים נוספים, Opus 4.6 מנצח GPT-5.2 ב-144 נקודות Elo ואת קודמו (Opus 4.5) ב-190 נקודות.
פיצ'רים חדשים למפתחים ב-Claude Opus 4.6
Agent Teams ב-Claude Code
כעת ניתן להרכיב צוותי סוכנים לעבודה משותפת על משימות ב-Claude Code. מספר מופעים של Claude משתפים פעולה על חלקים שונים של בסיס קוד בו-זמנית, ומאיצים ריפקטורינגים מורכבים, פיתוח פיצ'רים ותיקוני באגים. אותה יכולת של agent teams מפעילה את Claude Code Security, שמשתמש במספר סוכנים לסריקה, אימות ותיקוף פגיעויות.
Compaction למשימות ארוכות
Claude יכול כעת לסכם את ההקשר שלו במהלך משימות ארוכות. סשני תכנות אגנטיים יכולים לרוץ הרבה יותר זמן מבלי להגיע למגבלות חלון ההקשר. לשינויים מורכבים בקבצים מרובים הכוללים מאות קריאות לכלים, compaction שומר על פרודוקטיביות הסשן ללא הפעלה מחדש.
חשיבה אדפטיבית
המודל קולט רמזים הקשריים לגבי כמה חשיבה מורחבת להפעיל. לשאלות פשוטות, הוא מגיב מהר. לבעיות תכנות מורכבות, הוא חושב לעומק רב יותר. מפתחים מקבלים גם בקרות מאמץ חדשות לאיזון עלות, מהירות ואינטליגנציה לכל בקשה.
חלון הקשר של 1M טוקנים
כמו Claude Sonnet 4.6, Opus 4.6 כולל חלון הקשר של 1M טוקנים בבטא. זו חדשנות ראשונה למודלים מדרגת Opus, המאפשרת עיבוד בסיסי קוד שלמים בבקשה אחת.
תמחור וזמינות של Claude Opus 4.6
Opus 4.6 זמין ב-claude.ai, ב-API (claude-opus-4-6), ב-Amazon Bedrock וב-Google Cloud Vertex AI ב-$5/$25 למיליון טוקנים.
שאלות נפוצות
באילו בנצ'מרקים Claude Opus 4.6 מוביל?
מהם agent teams ב-Claude Code?
מהו compaction ב-Claude Opus 4.6?
כמה עולה Claude Opus 4.6?
הישארו מעודכנים
קבלו את חדשות ה-AI האחרונות לתיבת הדוא״ל.
