Code Velocity
Модели ИИ

Gemini 3.1 Pro: модель Google с фокусом на рассуждение

·6 мин чтения·Google, Google DeepMind·Первоисточник
Поделиться
Сравнение бенчмарков Gemini 3.1 Pro с результатами ARC-AGI-2 и RE-Bench относительно Gemini 3 Pro и других моделей

Результаты бенчмарков Gemini 3.1 Pro

Google DeepMind выпустил Gemini 3.1 Pro 19 февраля 2026 года. Модель более чем вдвое превышает показатели рассуждения своего предшественника, набирая 77.1% на ARC-AGI-2 против Gemini 3 Pro.

Gemini 3.1 Pro нацелен на задачи, требующие многоэтапного рассуждения: проектирование алгоритмов, масштабный синтез данных, агентные рабочие процессы и сложное программирование.

Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2

БенчмаркGemini 3.1 ProClaude Opus 4.6GPT-5.2-Codex
ARC-AGI-277.1%
RE-Bench (ML R&D)1.27
Terminal-Bench 2.0#164.0%
Humanity's Last Exam#1
Контекст (вход)1M200K (1M beta)400K
Контекст (выход)64K128K128K

Каждая модель лидирует в своей области. Gemini 3.1 Pro возглавляет бенчмарки по новаторскому рассуждению. Claude Opus 4.6 лидирует в агентном кодировании и междисциплинарном рассуждении. GPT-5.2-Codex предлагает конкурентоспособную производительность кодирования по более низкой цене.

Ключевые возможности для разработчиков

Настраиваемая глубина мышления

Gemini 3.1 Pro вводит параметр thinking_level для управления глубиной рассуждения. Низкий уровень мышления быстр и экономичен для рутинных задач. Высокий уровень выделяет больше вычислительных ресурсов для сложных задач.

Это похоже на контроли effort в Claude Opus 4.6, однако Gemini предоставляет настройку как явный параметр API, а не адаптивное поведение модели.

Endpoint для пользовательских инструментов

Отдельный endpoint gemini-3.1-pro-preview-customtools оптимизирован для агентных приложений, сочетающих shell-команды с пользовательскими инструментами. Он приоритизирует правильный выбор и вызов инструментов, снижая ошибки при взаимодействии агентов с внешними системами. Это актуально для разработчиков, создающих агентов, подобных GitHub Agentic Workflows, где точность выбора инструмента напрямую влияет на надёжность автоматизации.

Ввод URL YouTube

Разработчики могут передавать URL YouTube непосредственно в промпты. Модель анализирует видеоконтент, обеспечивая рабочие процессы, сочетающие понимание видео с генерацией кода или документации.

Мультимодальная обработка

Gemini 3.1 Pro обрабатывает текст, изображения, аудио, видео и код в едином контексте. С входным окном в 1M токенов модель может обработать целые кодовые базы или длинные исследовательские документы за один проход.

RE-Bench: производительность в ML-исследованиях

На RE-Bench, оценивающем возможности ML-исследований и разработки, Gemini 3.1 Pro набирает 1.27 (нормализовано по человеку) по сравнению с 1.04 у Gemini 3 Pro. Модель выполнила задачи оптимизации за 47 секунд против 94 секунд человеческого эталона.

Доступность Gemini 3.1 Pro

Gemini 3.1 Pro доступен в приложении Gemini, Google Cloud Vertex AI, Google AI Studio и Gemini API. Цены различаются в зависимости от платформы. Модель находится в предварительной версии; общая доступность ожидается в ближайшее время.

Часто задаваемые вопросы

Что такое Gemini 3.1 Pro?
Gemini 3.1 Pro — это оптимизированное для рассуждений обновление серии Gemini 3 от Google DeepMind, выпущенное 19 февраля 2026 года. Модель набирает 77.1% на ARC-AGI-2, более чем вдвое превышая показатели рассуждения Gemini 3 Pro. Поддерживает входной контекст в 1M токенов и 64K токенов на выходе, а также вводит параметр thinking_level, позволяющий разработчикам контролировать глубину рассуждения модели перед ответом.
Как Gemini 3.1 Pro сравнивается с Claude Opus 4.6?
Gemini 3.1 Pro и Claude Opus 4.6 сильны в разных областях. Gemini 3.1 Pro лидирует в ARC-AGI-2 (77.1%) и RE-Bench для ML-исследований, тогда как Claude Opus 4.6 занимает первое место в Terminal-Bench 2.0 по агентному кодированию и в Humanity's Last Exam по междисциплинарному рассуждению. Оба предлагают контекстное окно в 1M токенов. Выбор зависит от задачи: Gemini превосходит в новых задачах рассуждения, Claude — в длительной работе с кодом.
Что такое параметр thinking_level в Gemini 3.1 Pro?
Параметр thinking_level позволяет разработчикам контролировать максимальную глубину рассуждения, которую модель применяет перед генерацией ответа. Низкий уровень мышления быстрее и дешевле для простых задач. Высокий уровень выделяет больше вычислительного времени для сложных задач рассуждения. Это даёт разработчикам явный контроль над балансом стоимости, скорости и качества, аналогично контролям effort в Claude Opus 4.6.
Что такое endpoint для пользовательских инструментов в Gemini 3.1 Pro?
Gemini 3.1 Pro включает отдельный API-endpoint под названием gemini-3.1-pro-preview-customtools, оптимизированный для приоритетного использования пользовательских инструментов разработчика. При создании агентных приложений с сочетанием bash-команд и пользовательских инструментов этот endpoint обеспечивает правильный выбор и вызов нужного инструмента. Это особенно полезно для разработчиков, создающих ИИ-агентов, которым необходимо взаимодействовать с внешними системами и API.

Будьте в курсе

Получайте последние новости ИИ на почту.

Поделиться