Gemini 3.1 Pro: модель Google с фокусом на рассуждение

Результаты бенчмарков Gemini 3.1 Pro

Google DeepMind выпустил Gemini 3.1 Pro 19 февраля 2026 года. Модель более чем вдвое превышает показатели рассуждения своего предшественника, набирая 77.1% на ARC-AGI-2 против Gemini 3 Pro.

Gemini 3.1 Pro нацелен на задачи, требующие многоэтапного рассуждения: проектирование алгоритмов, масштабный синтез данных, агентные рабочие процессы и сложное программирование.

Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2

Бенчмарк	Gemini 3.1 Pro	Claude Opus 4.6	GPT-5.2-Codex
ARC-AGI-2	77.1%	—	—
RE-Bench (ML R&D)	1.27	—	—
Terminal-Bench 2.0	—	#1	64.0%
Humanity's Last Exam	—	#1	—
Контекст (вход)	1M	200K (1M beta)	400K
Контекст (выход)	64K	128K	128K

Каждая модель лидирует в своей области. Gemini 3.1 Pro возглавляет бенчмарки по новаторскому рассуждению. Claude Opus 4.6 лидирует в агентном кодировании и междисциплинарном рассуждении. GPT-5.2-Codex предлагает конкурентоспособную производительность кодирования по более низкой цене.

Ключевые возможности для разработчиков

Настраиваемая глубина мышления

Gemini 3.1 Pro вводит параметр thinking_level для управления глубиной рассуждения. Низкий уровень мышления быстр и экономичен для рутинных задач. Высокий уровень выделяет больше вычислительных ресурсов для сложных задач.

Это похоже на контроли effort в Claude Opus 4.6, однако Gemini предоставляет настройку как явный параметр API, а не адаптивное поведение модели.

Endpoint для пользовательских инструментов

Отдельный endpoint gemini-3.1-pro-preview-customtools оптимизирован для агентных приложений, сочетающих shell-команды с пользовательскими инструментами. Он приоритизирует правильный выбор и вызов инструментов, снижая ошибки при взаимодействии агентов с внешними системами. Это актуально для разработчиков, создающих агентов, подобных GitHub Agentic Workflows, где точность выбора инструмента напрямую влияет на надёжность автоматизации.

Ввод URL YouTube

Разработчики могут передавать URL YouTube непосредственно в промпты. Модель анализирует видеоконтент, обеспечивая рабочие процессы, сочетающие понимание видео с генерацией кода или документации.

Мультимодальная обработка

Gemini 3.1 Pro обрабатывает текст, изображения, аудио, видео и код в едином контексте. С входным окном в 1M токенов модель может обработать целые кодовые базы или длинные исследовательские документы за один проход.

RE-Bench: производительность в ML-исследованиях

На RE-Bench, оценивающем возможности ML-исследований и разработки, Gemini 3.1 Pro набирает 1.27 (нормализовано по человеку) по сравнению с 1.04 у Gemini 3 Pro. Модель выполнила задачи оптимизации за 47 секунд против 94 секунд человеческого эталона.

Доступность Gemini 3.1 Pro

Gemini 3.1 Pro доступен в приложении Gemini, Google Cloud Vertex AI, Google AI Studio и Gemini API. Цены различаются в зависимости от платформы. Модель находится в предварительной версии; общая доступность ожидается в ближайшее время.

Часто задаваемые вопросы

Что такое Gemini 3.1 Pro?

Gemini 3.1 Pro — это оптимизированное для рассуждений обновление серии Gemini 3 от Google DeepMind, выпущенное 19 февраля 2026 года. Модель набирает 77.1% на ARC-AGI-2, более чем вдвое превышая показатели рассуждения Gemini 3 Pro. Поддерживает входной контекст в 1M токенов и 64K токенов на выходе, а также вводит параметр thinking_level, позволяющий разработчикам контролировать глубину рассуждения модели перед ответом.

Как Gemini 3.1 Pro сравнивается с Claude Opus 4.6?

Gemini 3.1 Pro и Claude Opus 4.6 сильны в разных областях. Gemini 3.1 Pro лидирует в ARC-AGI-2 (77.1%) и RE-Bench для ML-исследований, тогда как Claude Opus 4.6 занимает первое место в Terminal-Bench 2.0 по агентному кодированию и в Humanity's Last Exam по междисциплинарному рассуждению. Оба предлагают контекстное окно в 1M токенов. Выбор зависит от задачи: Gemini превосходит в новых задачах рассуждения, Claude — в длительной работе с кодом.

Что такое параметр thinking_level в Gemini 3.1 Pro?

Параметр thinking_level позволяет разработчикам контролировать максимальную глубину рассуждения, которую модель применяет перед генерацией ответа. Низкий уровень мышления быстрее и дешевле для простых задач. Высокий уровень выделяет больше вычислительного времени для сложных задач рассуждения. Это даёт разработчикам явный контроль над балансом стоимости, скорости и качества, аналогично контролям effort в Claude Opus 4.6.

Что такое endpoint для пользовательских инструментов в Gemini 3.1 Pro?

Gemini 3.1 Pro включает отдельный API-endpoint под названием gemini-3.1-pro-preview-customtools, оптимизированный для приоритетного использования пользовательских инструментов разработчика. При создании агентных приложений с сочетанием bash-команд и пользовательских инструментов этот endpoint обеспечивает правильный выбор и вызов нужного инструмента. Это особенно полезно для разработчиков, создающих ИИ-агентов, которым необходимо взаимодействовать с внешними системами и API.