Gemini 3.1 Pro ბენჩმარკის შედეგები
Google DeepMind-მა გამოუშვა Gemini 3.1 Pro 2026 წლის 19 თებერვალს. მოდელმა ორჯერ მეტად გააუმჯობესა წინამორბედის მსჯელობის შედეგი, ARC-AGI-2-ზე 77.1% მოაგროვა Gemini 3 Pro-სთან შედარებით.
Gemini 3.1 Pro მიზნობს ამოცანებს, რომლებიც მრავალსაფეხურიან მსჯელობას საჭიროებს: ალგორითმების დიზაინი, დიდი მასშტაბის მონაცემთა სინთეზი, აგენტური სამუშაო პროცესები და რთული კოდირება.
Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2
| ბენჩმარკი | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2-Codex |
|---|---|---|---|
| ARC-AGI-2 | 77.1% | — | — |
| RE-Bench (ML R&D) | 1.27 | — | — |
| Terminal-Bench 2.0 | — | #1 | 64.0% |
| Humanity's Last Exam | — | #1 | — |
| კონტექსტი (შეყვანა) | 1M | 200K (1M ბეტა) | 400K |
| კონტექსტი (გამოსავალი) | 64K | 128K | 128K |
თითოეული მოდელი სხვადასხვა სფეროში ლიდერობს. Gemini 3.1 Pro ახალი მსჯელობის ბენჩმარკებში პირველია. Claude Opus 4.6 ლიდერობს აგენტურ კოდირებასა და მულტიდისციპლინარულ მსჯელობაში. GPT-5.2-Codex კონკურენტუნარიან კოდირების შედეგს გთავაზობთ დაბალ ფასად.
ძირითადი ფუნქციები დეველოპერებისთვის
კონფიგურირებადი აზროვნების სიღრმე
Gemini 3.1 Pro წარადგენს thinking_level პარამეტრს, რომელიც აკონტროლებს მსჯელობის სიღრმეს. დაბალი აზროვნება სწრაფი და იაფია ყოველდღიური ამოცანებისთვის. მაღალი აზროვნება მეტ გამოთვლას იყენებს რთული პრობლემებისთვის.
ეს მსგავსია Claude Opus 4.6-ის ძალისხმევის კონტროლებთან, თუმცა Gemini პარამეტრს აშკარა API პარამეტრად ავლენს, ნაცვლად ადაპტური მოდელის ქცევისა.
Custom Tools endpoint
ცალკე endpoint, gemini-3.1-pro-preview-customtools, ოპტიმიზირებულია აგენტური აპლიკაციებისთვის, რომლებიც shell ბრძანებებს მორგებულ ინსტრუმენტებთან აერთიანებს. ის პრიორიტეტს ანიჭებს სწორი ინსტრუმენტის შერჩევასა და გამოძახებას, ამცირებს შეცდომებს აგენტების გარე სისტემებთან ინტერაქციისას. ეს აქტუალურია GitHub Agentic Workflows-ის მსგავსი აგენტების მშენებელი დეველოპერებისთვის, სადაც ინსტრუმენტის შერჩევის სიზუსტე პირდაპირ გავლენას ახდენს ავტომატიზაციის საიმედოობაზე.
YouTube URL შეყვანა
დეველოპერებს შეუძლიათ YouTube URL-ები პირდაპირ გადასცენ პრომპტებში. მოდელი აანალიზებს ვიდეო შინაარსს, რაც საშუალებას იძლევა ვიდეო გაგების კოდის გენერაციასთან ან დოკუმენტაციასთან კომბინაცია.
მულტიმოდალური დამუშავება
Gemini 3.1 Pro ამუშავებს ტექსტს, სურათებს, აუდიოს, ვიდეოს და კოდს ერთ კონტექსტში. 1M ტოკენის შეყვანის ფანჯრით, მას შეუძლია მთელი კოდის ბაზების ან გრძელი სამეცნიერო დოკუმენტების ერთ გავლაში დამუშავება.
RE-Bench: ML კვლევის შედეგი
RE-Bench-ზე, რომელიც აფასებს ML კვლევისა და განვითარების შესაძლებლობებს, Gemini 3.1 Pro-მ მოაგროვა 1.27 (ადამიანურად ნორმალიზებული), Gemini 3 Pro-ს 1.04-დან ზრდა. მოდელმა ოპტიმიზაციის ამოცანები 47 წამში დაასრულა 94-წამიანი ადამიანური მითითების წინააღმდეგ.
Gemini 3.1 Pro ხელმისაწვდომობა
Gemini 3.1 Pro ხელმისაწვდომია Gemini აპლიკაციაში, Google Cloud Vertex AI-ში, Google AI Studio-ში და Gemini API-ში. ფასები პლატფორმის მიხედვით განსხვავდება. მოდელი preview-ში არის; ზოგადი ხელმისაწვდომობა მოსალოდნელია მალე.
ხშირად დასმული კითხვები
რა არის Gemini 3.1 Pro?
როგორ ადარებს Gemini 3.1 Pro Claude Opus 4.6-ს?
რა არის thinking_level პარამეტრი Gemini 3.1 Pro-ში?
რა არის custom tools endpoint Gemini 3.1 Pro-ში?
იყავით ინფორმირებული
მიიღეთ უახლესი AI სიახლეები ელფოსტაზე.
