Резултати от Бенчмаркове на Gemini 3.1 Pro
Google DeepMind пусна Gemini 3.1 Pro на 19 февруари 2026 г. Моделът повече от удвоява производителността в разсъжденията на предшественика си, постигайки 77.1% на ARC-AGI-2 срещу Gemini 3 Pro.
Gemini 3.1 Pro е насочен към задачи, изискващи многостъпково разсъждение: проектиране на алгоритми, синтез на данни в голям мащаб, агентни работни процеси и сложно програмиране.
Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2
| Бенчмарк | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2-Codex |
|---|---|---|---|
| ARC-AGI-2 | 77.1% | — | — |
| RE-Bench (ML R&D) | 1.27 | — | — |
| Terminal-Bench 2.0 | — | #1 | 64.0% |
| Humanity's Last Exam | — | #1 | — |
| Контекст (вход) | 1M | 200K (1M бета) | 400K |
| Контекст (изход) | 64K | 128K | 128K |
Всеки модел води в различни области. Gemini 3.1 Pro оглавява бенчмарковете за ново разсъждение. Claude Opus 4.6 води в агентното програмиране и мултидисциплинарните разсъждения. GPT-5.2-Codex предлага конкурентна производителност в програмирането на по-ниска цена.
Ключови Функции за Разработчици
Конфигурируема Дълбочина на Разсъждение
Gemini 3.1 Pro въвежда параметър thinking_level, контролиращ дълбочината на разсъждение. Ниско thinking е бързо и евтино за рутинни задачи. Високо thinking прилага повече изчисления към сложни проблеми.
Това е подобно на контролите за усилие на Claude Opus 4.6, макар Gemini да представя настройката като явен API параметър, а не адаптивно поведение на модела.
Endpoint за Custom Tools
Отделен endpoint, gemini-3.1-pro-preview-customtools, е оптимизиран за агентни приложения, комбиниращи shell команди с потребителски инструменти. Той приоритизира правилния избор и извикване на инструменти, намалявайки грешките при взаимодействие на агенти с външни системи. Това е релевантно за разработчици, изграждащи агенти подобни на GitHub Agentic Workflows, където точността на избора на инструменти директно влияе на надеждността на автоматизацията.
Въвеждане на YouTube URL
Разработчиците могат да предават YouTube URL директно в промптове. Моделът анализира видео съдържание, позволявайки работни процеси, комбиниращи разбиране на видео с генериране на код или документация.
Мултимодална Обработка
Gemini 3.1 Pro обработва текст, изображения, аудио, видео и код в единен контекст. С входен прозорец от 1M токена може да обработи цели кодови бази или дълги изследователски документи наведнъж.
RE-Bench: Производителност в ML Изследвания
На RE-Bench, който оценява способностите за ML изследвания и разработка, Gemini 3.1 Pro постига 1.27 (нормализирано спрямо човек), увеличение от 1.04 на Gemini 3 Pro. Моделът завърши задачи по оптимизация за 47 секунди срещу 94-секундния човешки еталон.
Наличност на Gemini 3.1 Pro
Gemini 3.1 Pro е наличен в приложението Gemini, Google Cloud Vertex AI, Google AI Studio и Gemini API. Цените варират по платформа. Моделът е в преглед; обща наличност се очаква да последва.
Оригинален източник
https://blog.google/technology/google-deepmind/gemini-3-1-pro/Често задавани въпроси
Какво е Gemini 3.1 Pro?
Как се сравнява Gemini 3.1 Pro с Claude Opus 4.6?
Какво е параметърът thinking_level в Gemini 3.1 Pro?
Какво е endpoint за custom tools в Gemini 3.1 Pro?
Бъдете информирани
Получавайте последните AI новини по имейл.
