Code Velocity
ხელოვნური ინტელექტის მოდელები

Claude Opus 4.6: #1 კოდირებისა და მსჯელობის ბენჩმარკებში

·7 წუთი კითხვა·Anthropic, OpenAI·ორიგინალი წყარო
გაზიარება
Claude Opus 4.6 ბენჩმარკების შედარების დიაგრამა: #1 რანჟირება Terminal-Bench 2.0, Humanity's Last Exam და GDPval-AA-ზე

Claude Opus 4.6 ბენჩმარკის შედეგები

Claude Opus 4.6 Anthropic-ის ყველაზე შესაძლო მოდელია, ახალ რეკორდებს ადგენს კოდირებაში, მსჯელობასა და ცოდნის სამუშაოში. აგენტური კოდირების წამყვან ბენჩმარკ Terminal-Bench 2.0-ზე ყველაზე მაღალ ქულას აღწევს და მულტიდისციპლინარული მსჯელობის ტესტ Humanity's Last Exam-ზე ყველა საზღვრის მოდელს უსწრებს.

კოდირების დავალებებისთვის უკვე Claude Sonnet 4.6-ს მომხმარებელი დეველოპერებისთვის Opus 4.6 წარმოადგენს წარმადობის შემდეგ საფეხურს რთული, მრავალსაფეხურიანი აგენტური სამუშაოსთვის.

კოდირების წარმადობა: #1 Terminal-Bench 2.0-ზე

Opus 4.6 აუმჯობესებს წინამორბედის კოდირების უნარებს ყველა განზომილებაში:

  • გულმოდგინე დაგეგმვა: კოდის დაწერამდე უფრო საფუძვლიანად გეგმავს
  • მდგრადი აგენტური დავალებები: ინარჩუნებს კონტექსტს და ხარისხს უფრო ხანგრძლივ კოდირების სესიებში
  • დიდი კოდბაზის ნავიგაცია: უფრო სანდოდ მუშაობს რთულ, მრავალფაილიან პროექტებში
  • თვით-კორექცია: საკუთარი შეცდომების აღმოჩენის უკეთესი კოდის განხილვისა და დებაგინგის უნარები

Terminal-Bench 2.0-ზე, რომელიც რეალური სამყაროს სისტემის ადმინისტრირებისა და კოდირების დავალებებს ტესტავს, Opus 4.6 ნებისმიერი მოდელის ყველაზე მაღალ ქულას აღწევს.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

ბენჩმარკიOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

GDPval-AA-ზე, რომელიც ფინანსებში, სამართალსა და სხვა სფეროებში ეკონომიკურად ღირებული ცოდნის სამუშაოს წარმადობას ზომავს, Opus 4.6 GPT-5.2-ს 144 Elo ქულით და საკუთარ წინამორბედს (Opus 4.5) 190 ქულით უსწრებს.

Claude Opus 4.6-ის ახალი დეველოპერის ფუნქციები

აგენტ გუნდები Claude Code-ში

ახლა შეგიძლიათ Claude Code-ში დავალებებზე ერთად სამუშაოდ აგენტ გუნდები შეკრიბოთ. Claude-ის მრავალი ინსტანცია ერთდროულად თანამშრომლობს კოდბაზის სხვადასხვა ნაწილზე, აჩქარებს რთულ რეფაქტორინგს, ფუნქციონალის შემუშავებას და ხარვეზების გამოსწორებას. იგივე აგენტ გუნდების შესაძლებლობა ამოძრავებს Claude Code Security-ს, რომელიც დაუცველობების სკანირებისთვის, შემოწმებისა და ვალიდაციისთვის მრავალ აგენტს იყენებს.

Compaction ხანგრძლივი დავალებებისთვის

Claude-ს ახლა შეუძლია საკუთარი კონტექსტის შეჯამება ხანგრძლივი დავალებების დროს. ეს ნიშნავს, რომ აგენტური კოდირების სესიები კონტექსტის ფანჯრის ლიმიტებში მოხვედრის გარეშე გაცილებით ხანგრძლივად შეიძლება გაგრძელდეს. ინსტრუმენტების ასობით გამოძახების მქონე რთული, მრავალფაილიანი ცვლილებებისთვის compaction სესიას პროდუქტიულად ინარჩუნებს ხელახალი გაშვების გარეშე.

ადაპტური აზროვნება

მოდელი აანალიზებს კონტექსტუალურ მინიშნებებს, თუ რამდენი გაფართოებული აზროვნება გამოიყენოს. მარტივ კითხვებზე სწრაფად პასუხობს. რთული კოდირების პრობლემებისთვის უფრო ღრმად ფიქრობს. დეველოპერები ასევე იღებენ ახალ ძალისხმევის კონტროლებს ღირებულების, სიჩქარისა და ინტელექტის ბალანსისთვის.

1M ტოკენის კონტექსტის ფანჯარა

Claude Sonnet 4.6-ის მსგავსად, Opus 4.6 ბეტაში 1M ტოკენის კონტექსტის ფანჯარას ფლობს. ეს Opus კლასის მოდელებისთვის პირველია და შესაძლებელს ხდის მთელი დიდი კოდბაზების ერთ მოთხოვნაში დამუშავებას.

Claude Opus 4.6 ფასები და ხელმისაწვდომობა

Opus 4.6 ხელმისაწვდომია claude.ai-ზე, API-ზე (claude-opus-4-6), Amazon Bedrock-სა და Google Cloud Vertex AI-ზე მილიონ ტოკენზე $5/$25 ფასად.

ორიგინალი წყარო

https://www.anthropic.com/news/claude-opus-4-6

ხშირად დასმული კითხვები

რომელ ბენჩმარკებზე ლიდერობს Claude Opus 4.6?
Claude Opus 4.6 #1 პოზიციას იკავებს ოთხ ძირითად ბენჩმარკზე: Terminal-Bench 2.0 აგენტური კოდირებისთვის, Humanity's Last Exam მულტიდისციპლინარული მსჯელობისთვის, BrowseComp ინფორმაციის მოძიებისთვის და GDPval-AA ცოდნის სამუშაოსთვის. GDPval-AA-ზე GPT-5.2-ს 144 Elo ქულით უსწრებს და თავის წინამორბედ Opus 4.5-ს 190 ქულით. ეს შედეგები მას 2026 წლის თებერვლისთვის ყველაზე მაღალქულიან საზღვრის მოდელად აქცევს.
რა არის აგენტ გუნდები Claude Code-ში?
აგენტ გუნდები Claude Code-ის ახალი ფუნქციაა, რომელიც Claude-ის მრავალ ინსტანციას პარალელურად თანამშრომლობის საშუალებას აძლევს. მაგალითად, ერთ აგენტს შეუძლია მოდულის რეფაქტორინგი, მეორეს ტესტების წერა, მესამეს კი დოკუმენტაციის განახლება. ეს პარალელური მიდგომა ამაჩქარებს რთულ ცვლილებებს, რომლებიც ერთ აგენტს გაცილებით მეტ დროს მოუთხოვდა.
რა არის compaction Claude Opus 4.6-ში?
Compaction არის კონტექსტის მართვის ფუნქცია, რომელიც Claude-ს საშუალებას აძლევს საკუთარი საუბრის ისტორია გაახანგრძლივოს აგენტური დავალებების დროს. როდესაც კოდირების სესია კონტექსტის ფანჯრის ლიმიტს უახლოვდება, compaction ადრინდელ კონტექსტს აჯამებს, რათა Claude-მ დავალების დაკარგვის გარეშე მუშაობა გააგრძელოს.
რა ღირს Claude Opus 4.6?
Claude Opus 4.6 ღირს $5 მილიონ შემავალ ტოკენზე და $25 მილიონ გამომავალ ტოკენზე, წინა Opus მოდელებთან იგივე ფასი. ხელმისაწვდომია claude.ai-ზე, Anthropic API-ზე claude-opus-4-6 მოდელის ID-ით, Amazon Bedrock-სა და Google Cloud Vertex AI-ზე. შედარებისთვის Claude Sonnet 4.6 მსგავს კოდის ხარისხს $3/$15-ად გვთავაზობს.

იყავით ინფორმირებული

მიიღეთ უახლესი AI სიახლეები ელფოსტაზე.

გაზიარება