Code Velocity
Моделі ШІ

Gemini 3.1 Pro: Модель Google з Фокусом на Міркування

·6 хв читання·Google, Google DeepMind·Першоджерело
Поділитися
Порівняння бенчмарків Gemini 3.1 Pro з результатами ARC-AGI-2 та RE-Bench відносно Gemini 3 Pro та інших передових моделей

Результати Бенчмарків Gemini 3.1 Pro

Google DeepMind випустив Gemini 3.1 Pro 19 лютого 2026 року. Модель більш ніж удвічі перевершує продуктивність міркування попередника, набираючи 77.1% на ARC-AGI-2 порівняно з Gemini 3 Pro.

Gemini 3.1 Pro орієнтований на завдання, що вимагають багатокрокового міркування: проєктування алгоритмів, синтез даних великого масштабу, агентні робочі процеси та складне кодування.

Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2

БенчмаркGemini 3.1 ProClaude Opus 4.6GPT-5.2-Codex
ARC-AGI-277.1%
RE-Bench (ML R&D)1.27
Terminal-Bench 2.0#164.0%
Humanity's Last Exam#1
Контекст (вхід)1M200K (1M бета)400K
Контекст (вихід)64K128K128K

Кожна модель лідирує в різних сферах. Gemini 3.1 Pro очолює бенчмарки нового міркування. Claude Opus 4.6 лідирує в агентному кодуванні та мультидисциплінарному міркуванні. GPT-5.2-Codex пропонує конкурентну продуктивність кодування за нижчою ціною.

Ключові Функції Для Розробників

Налаштовувана Глибина Міркування

Gemini 3.1 Pro вводить параметр thinking_level, що контролює глибину міркування. Низький рівень thinking швидкий і дешевий для рутинних завдань. Високий рівень thinking застосовує більше обчислень до складних проблем.

Це подібне до контролю зусиль Claude Opus 4.6, хоча Gemini представляє налаштування як явний параметр API, а не адаптивну поведінку моделі.

Endpoint Custom Tools

Окремий endpoint, gemini-3.1-pro-preview-customtools, оптимізований для агентних додатків, що поєднують команди оболонки з користувацькими інструментами. Він пріоритезує правильний вибір та виклик інструментів, зменшуючи помилки при взаємодії агентів із зовнішніми системами. Це стосується розробників, що створюють агентів, подібних до GitHub Agentic Workflows, де точність вибору інструментів безпосередньо впливає на надійність автоматизації.

Введення URL YouTube

Розробники можуть передавати URL YouTube безпосередньо в промпти. Модель аналізує відеоконтент, дозволяючи робочі процеси, що поєднують розуміння відео з генерацією коду або документації.

Мультимодальна Обробка

Gemini 3.1 Pro обробляє текст, зображення, аудіо, відео та код в одному контексті. З вхідним вікном на 1M токенів він може обробити цілі кодові бази або довгі дослідницькі документи за один раз.

RE-Bench: Продуктивність у Дослідженнях ML

На RE-Bench, що оцінює здатності до досліджень та розробки ML, Gemini 3.1 Pro набирає 1.27 (нормалізований за людиною), зростання з 1.04 у Gemini 3 Pro. Модель виконала завдання оптимізації за 47 секунд проти 94-секундного людського еталона.

Доступність Gemini 3.1 Pro

Gemini 3.1 Pro доступний у додатку Gemini, Google Cloud Vertex AI, Google AI Studio та Gemini API. Ціни варіюються залежно від платформи. Модель у попередньому перегляді; загальна доступність очікується пізніше.

Поширені запитання

Що таке Gemini 3.1 Pro?
Gemini 3.1 Pro — оптимізоване для міркування оновлення серії Gemini 3 від Google DeepMind, випущене 19 лютого 2026 року. Набирає 77.1% на ARC-AGI-2, більш ніж удвічі перевершуючи продуктивність міркування Gemini 3 Pro. Модель підтримує контекст 1M токенів на вході та 64K токенів на виході, а також вводить параметр thinking_level, що дозволяє розробникам контролювати глибину міркування моделі перед відповіддю.
Як Gemini 3.1 Pro порівнюється з Claude Opus 4.6?
Gemini 3.1 Pro та Claude Opus 4.6 мають різні сильні сторони. Gemini 3.1 Pro лідирує на ARC-AGI-2 (77.1%) та RE-Bench для ML R&D, тоді як Claude Opus 4.6 займає першу позицію на Terminal-Bench 2.0 для агентного кодування та Humanity's Last Exam для мультидисциплінарного міркування. Обидва пропонують контекстні вікна на 1M токенів. Вибір залежить від навантаження: Gemini відмінний у нових завданнях міркування, Claude — у тривалій роботі з кодом.
Що таке параметр thinking_level у Gemini 3.1 Pro?
Параметр thinking_level дозволяє розробникам контролювати максимальну глибину міркування моделі перед генерацією відповіді. Низький рівень thinking швидший і дешевший для простих завдань. Високий рівень thinking виділяє більше обчислювального часу для складних проблем міркування. Це дає розробникам явний контроль над компромісом між вартістю, швидкістю та якістю, подібно до контролю зусиль у Claude Opus 4.6.
Що таке endpoint custom tools у Gemini 3.1 Pro?
Gemini 3.1 Pro включає окремий endpoint API під назвою gemini-3.1-pro-preview-customtools, оптимізований для пріоритезації користувацьких інструментів розробників. При створенні агентних додатків з поєднанням bash-команд та користувацьких інструментів цей endpoint забезпечує правильний вибір та виклик потрібного інструменту моделлю. Це особливо корисно для розробників, що створюють AI-агентів, яким потрібно взаємодіяти із зовнішніми системами та API.

Будьте в курсі

Отримуйте найсвіжіші новини ШІ на пошту.

Поділитися