Результаты бенчмарков Gemini 3.1 Pro
Google DeepMind выпустил Gemini 3.1 Pro 19 февраля 2026 года. Модель более чем вдвое превышает показатели рассуждения своего предшественника, набирая 77.1% на ARC-AGI-2 против Gemini 3 Pro.
Gemini 3.1 Pro нацелен на задачи, требующие многоэтапного рассуждения: проектирование алгоритмов, масштабный синтез данных, агентные рабочие процессы и сложное программирование.
Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2
| Бенчмарк | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2-Codex |
|---|---|---|---|
| ARC-AGI-2 | 77.1% | — | — |
| RE-Bench (ML R&D) | 1.27 | — | — |
| Terminal-Bench 2.0 | — | #1 | 64.0% |
| Humanity's Last Exam | — | #1 | — |
| Контекст (вход) | 1M | 200K (1M beta) | 400K |
| Контекст (выход) | 64K | 128K | 128K |
Каждая модель лидирует в своей области. Gemini 3.1 Pro возглавляет бенчмарки по новаторскому рассуждению. Claude Opus 4.6 лидирует в агентном кодировании и междисциплинарном рассуждении. GPT-5.2-Codex предлагает конкурентоспособную производительность кодирования по более низкой цене.
Ключевые возможности для разработчиков
Настраиваемая глубина мышления
Gemini 3.1 Pro вводит параметр thinking_level для управления глубиной рассуждения. Низкий уровень мышления быстр и экономичен для рутинных задач. Высокий уровень выделяет больше вычислительных ресурсов для сложных задач.
Это похоже на контроли effort в Claude Opus 4.6, однако Gemini предоставляет настройку как явный параметр API, а не адаптивное поведение модели.
Endpoint для пользовательских инструментов
Отдельный endpoint gemini-3.1-pro-preview-customtools оптимизирован для агентных приложений, сочетающих shell-команды с пользовательскими инструментами. Он приоритизирует правильный выбор и вызов инструментов, снижая ошибки при взаимодействии агентов с внешними системами. Это актуально для разработчиков, создающих агентов, подобных GitHub Agentic Workflows, где точность выбора инструмента напрямую влияет на надёжность автоматизации.
Ввод URL YouTube
Разработчики могут передавать URL YouTube непосредственно в промпты. Модель анализирует видеоконтент, обеспечивая рабочие процессы, сочетающие понимание видео с генерацией кода или документации.
Мультимодальная обработка
Gemini 3.1 Pro обрабатывает текст, изображения, аудио, видео и код в едином контексте. С входным окном в 1M токенов модель может обработать целые кодовые базы или длинные исследовательские документы за один проход.
RE-Bench: производительность в ML-исследованиях
На RE-Bench, оценивающем возможности ML-исследований и разработки, Gemini 3.1 Pro набирает 1.27 (нормализовано по человеку) по сравнению с 1.04 у Gemini 3 Pro. Модель выполнила задачи оптимизации за 47 секунд против 94 секунд человеческого эталона.
Доступность Gemini 3.1 Pro
Gemini 3.1 Pro доступен в приложении Gemini, Google Cloud Vertex AI, Google AI Studio и Gemini API. Цены различаются в зависимости от платформы. Модель находится в предварительной версии; общая доступность ожидается в ближайшее время.
Часто задаваемые вопросы
Что такое Gemini 3.1 Pro?
Как Gemini 3.1 Pro сравнивается с Claude Opus 4.6?
Что такое параметр thinking_level в Gemini 3.1 Pro?
Что такое endpoint для пользовательских инструментов в Gemini 3.1 Pro?
Будьте в курсе
Получайте последние новости ИИ на почту.
