Code Velocity
AI Модели

Gemini 3.1 Pro: Моделът на Google с Фокус върху Разсъждения

·6 мин четене·Google, Google DeepMind·Оригинален източник
Сподели
Сравнение на бенчмаркове на Gemini 3.1 Pro с резултати от ARC-AGI-2 и RE-Bench спрямо Gemini 3 Pro и други водещи модели

Резултати от Бенчмаркове на Gemini 3.1 Pro

Google DeepMind пусна Gemini 3.1 Pro на 19 февруари 2026 г. Моделът повече от удвоява производителността в разсъжденията на предшественика си, постигайки 77.1% на ARC-AGI-2 срещу Gemini 3 Pro.

Gemini 3.1 Pro е насочен към задачи, изискващи многостъпково разсъждение: проектиране на алгоритми, синтез на данни в голям мащаб, агентни работни процеси и сложно програмиране.

Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2

БенчмаркGemini 3.1 ProClaude Opus 4.6GPT-5.2-Codex
ARC-AGI-277.1%
RE-Bench (ML R&D)1.27
Terminal-Bench 2.0#164.0%
Humanity's Last Exam#1
Контекст (вход)1M200K (1M бета)400K
Контекст (изход)64K128K128K

Всеки модел води в различни области. Gemini 3.1 Pro оглавява бенчмарковете за ново разсъждение. Claude Opus 4.6 води в агентното програмиране и мултидисциплинарните разсъждения. GPT-5.2-Codex предлага конкурентна производителност в програмирането на по-ниска цена.

Ключови Функции за Разработчици

Конфигурируема Дълбочина на Разсъждение

Gemini 3.1 Pro въвежда параметър thinking_level, контролиращ дълбочината на разсъждение. Ниско thinking е бързо и евтино за рутинни задачи. Високо thinking прилага повече изчисления към сложни проблеми.

Това е подобно на контролите за усилие на Claude Opus 4.6, макар Gemini да представя настройката като явен API параметър, а не адаптивно поведение на модела.

Endpoint за Custom Tools

Отделен endpoint, gemini-3.1-pro-preview-customtools, е оптимизиран за агентни приложения, комбиниращи shell команди с потребителски инструменти. Той приоритизира правилния избор и извикване на инструменти, намалявайки грешките при взаимодействие на агенти с външни системи. Това е релевантно за разработчици, изграждащи агенти подобни на GitHub Agentic Workflows, където точността на избора на инструменти директно влияе на надеждността на автоматизацията.

Въвеждане на YouTube URL

Разработчиците могат да предават YouTube URL директно в промптове. Моделът анализира видео съдържание, позволявайки работни процеси, комбиниращи разбиране на видео с генериране на код или документация.

Мултимодална Обработка

Gemini 3.1 Pro обработва текст, изображения, аудио, видео и код в единен контекст. С входен прозорец от 1M токена може да обработи цели кодови бази или дълги изследователски документи наведнъж.

RE-Bench: Производителност в ML Изследвания

На RE-Bench, който оценява способностите за ML изследвания и разработка, Gemini 3.1 Pro постига 1.27 (нормализирано спрямо човек), увеличение от 1.04 на Gemini 3 Pro. Моделът завърши задачи по оптимизация за 47 секунди срещу 94-секундния човешки еталон.

Наличност на Gemini 3.1 Pro

Gemini 3.1 Pro е наличен в приложението Gemini, Google Cloud Vertex AI, Google AI Studio и Gemini API. Цените варират по платформа. Моделът е в преглед; обща наличност се очаква да последва.

Често задавани въпроси

Какво е Gemini 3.1 Pro?
Gemini 3.1 Pro е оптимизираната за разсъждения надстройка на серията Gemini 3 от Google DeepMind, пусната на 19 февруари 2026 г. Постига 77.1% на ARC-AGI-2, повече от удвоявайки производителността в разсъжденията на Gemini 3 Pro. Моделът поддържа входен контекст от 1M токена и 64K изходни токена и въвежда параметър thinking_level, който позволява на разработчиците да контролират дълбочината на разсъждение преди отговор.
Как се сравнява Gemini 3.1 Pro с Claude Opus 4.6?
Gemini 3.1 Pro и Claude Opus 4.6 са насочени към различни силни страни. Gemini 3.1 Pro води на ARC-AGI-2 (77.1%) и RE-Bench за ML R&D, докато Claude Opus 4.6 заема водещата позиция на Terminal-Bench 2.0 за агентно програмиране и Humanity's Last Exam за мултидисциплинарни разсъждения. И двата предлагат контекстни прозорци от 1M токена. Изборът зависи от натоварването: Gemini превъзхожда в нови задачи за разсъждение, Claude — в продължителна работа с код.
Какво е параметърът thinking_level в Gemini 3.1 Pro?
Параметърът thinking_level позволява на разработчиците да контролират максималната дълбочина на разсъждение, която моделът прилага преди генериране на отговор. Ниско thinking е по-бързо и по-евтино за прости задачи. Високо thinking отделя повече изчислително време за сложни проблеми. Това дава на разработчиците явен контрол над компромиса между цена, скорост и качество, подобно на контролите за усилие в Claude Opus 4.6.
Какво е endpoint за custom tools в Gemini 3.1 Pro?
Gemini 3.1 Pro включва отделен API endpoint, наречен gemini-3.1-pro-preview-customtools, оптимизиран за приоритизиране на потребителски инструменти на разработчици. При изграждане на агентни приложения с комбинация от bash команди и потребителски инструменти, този endpoint гарантира, че моделът правилно избира и извиква нужния инструмент. Това е особено полезно за разработчици, изграждащи AI агенти, които трябва да взаимодействат с външни системи и API.

Бъдете информирани

Получавайте последните AI новини по имейл.

Сподели