Code Velocity
Modele IA

Gemini 3.1 Pro: Modelul Google cu Raționament Avansat

·6 min de citit·Google, Google DeepMind·Sursa originală
Distribuie
Comparație benchmark-uri Gemini 3.1 Pro arătând scoruri pe ARC-AGI-2 și RE-Bench versus Gemini 3 Pro și alte modele de frontieră

Rezultatele Benchmark ale Gemini 3.1 Pro

Google DeepMind a lansat Gemini 3.1 Pro pe 19 februarie 2026. Modelul mai mult decât dublează performanța de raționament a predecesorului său, obținând 77.1% pe ARC-AGI-2 comparativ cu rezultatul Gemini 3 Pro.

Gemini 3.1 Pro este proiectat pentru sarcini unde un răspuns direct nu este suficient: design de algoritmi, sinteză de date la scară largă, workflow-uri agentice și programare complexă.

Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2

BenchmarkGemini 3.1 ProClaude Opus 4.6GPT-5.2-Codex
ARC-AGI-277.1%
RE-Bench (R&D ML)1.27
Terminal-Bench 2.0#164.0%
Humanity's Last Exam#1
Context (intrare)1M200K (1M beta)400K
Context (ieșire)64K128K128K

Fiecare model conduce în domenii diferite. Gemini 3.1 Pro se distinge pe benchmark-uri de raționament nou. Claude Opus 4.6 conduce în programare agentică și raționament multidisciplinar. GPT-5.2-Codex oferă performanță competitivă în programare la un preț mai mic.

Funcționalități Cheie pentru Dezvoltatori

Profunzime de Raționament Configurabilă

Gemini 3.1 Pro introduce un parametru thinking_level care controlează cât de profund raționează modelul înainte de a răspunde. Thinking scăzut este rapid și ieftin pentru sarcini de rutină. Thinking ridicat aplică mai multă computație pentru probleme complexe.

Este conceptual similar cu gândirea adaptivă și controalele de efort din Claude Opus 4.6, deși implementarea Gemini expune controlul ca un parametru explicit al API-ului în loc de un comportament adaptiv al modelului.

Endpoint de Instrumente Personalizate

Un endpoint separat, gemini-3.1-pro-preview-customtools, este optimizat pentru aplicații agentice care combină comenzi shell cu instrumente personalizate. Endpoint-ul prioritizează selecția și invocarea corectă a instrumentelor, reducând erorile când agenții interacționează cu sisteme externe.

Input URL YouTube

Dezvoltatorii pot acum pasa URL-uri YouTube direct în prompts. Modelul analizează automat conținutul video, permițând workflow-uri care combină înțelegerea video cu generarea de cod sau sarcini de documentare.

Procesare Multimodală

Gemini 3.1 Pro gestionează text, imagini, audio, video și cod într-un singur context. Cu fereastra de intrare de 1M tokeni, poate procesa codebase-uri întregi, documente lungi de cercetare sau workflow-uri adânc imbricate într-o singură trecere.

RE-Bench: Performanță în Cercetarea ML

Pe RE-Bench, care evaluează capabilitățile de cercetare și dezvoltare în ML, Gemini 3.1 Pro obține un scor normalizat uman de 1.27, față de 1.04 al Gemini 3 Pro. Modelul a completat sarcini de optimizare în 47 de secunde comparativ cu referința umană de 94 de secunde.

Disponibilitatea Gemini 3.1 Pro

Gemini 3.1 Pro este disponibil în aplicația Gemini, Google Cloud Vertex AI, Google AI Studio și API-ul Gemini. Prețurile specifice variază pe platformă. Modelul este în preview cu disponibilitate generală așteptată în curând.

Întrebări frecvente

Ce este Gemini 3.1 Pro?
Gemini 3.1 Pro este actualizarea optimizată pentru raționament a seriei Gemini 3 de la Google DeepMind, lansată pe 19 februarie 2026. Obține 77.1% pe ARC-AGI-2, mai mult decât dublând performanța de raționament a Gemini 3 Pro. Modelul suportă 1M tokeni de context de intrare și 64K tokeni de ieșire, și introduce un parametru thinking_level care permite dezvoltatorilor să controleze cât de profund raționează modelul înainte de a răspunde.
Cum se compară Gemini 3.1 Pro cu Claude Opus 4.6?
Gemini 3.1 Pro și Claude Opus 4.6 au puncte forte diferite. Gemini 3.1 Pro conduce pe ARC-AGI-2 (77.1%) și RE-Bench pentru cercetare ML, în timp ce Claude Opus 4.6 ocupă poziția #1 pe Terminal-Bench 2.0 pentru programare agentică și Humanity's Last Exam pentru raționament multidisciplinar. Ambele oferă ferestre de context de 1M tokeni. Alegerea depinde de sarcină: Gemini excelează la raționament nou, Claude la muncă susținută de programare.
Ce este parametrul thinking_level în Gemini 3.1 Pro?
Parametrul thinking_level permite dezvoltatorilor să controleze profunzimea maximă de raționament pe care modelul o aplică înainte de a produce un răspuns. Thinking scăzut este mai rapid și mai ieftin pentru sarcini directe. Thinking ridicat alocă mai mult timp de calcul pentru probleme complexe. Aceasta oferă dezvoltatorilor control explicit asupra compromisului cost-viteză-calitate, similar cu controalele de efort din Claude Opus 4.6.
Ce este endpoint-ul de instrumente personalizate în Gemini 3.1 Pro?
Gemini 3.1 Pro include un endpoint de API separat numit gemini-3.1-pro-preview-customtools, optimizat pentru a prioritiza instrumentele personalizate ale dezvoltatorilor. La construirea aplicațiilor agentice cu o combinație de comenzi bash și instrumente personalizate, acest endpoint asigură că modelul selectează și invocă instrumentul corect. Este deosebit de util pentru dezvoltatorii care construiesc agenți de IA care trebuie să interacționeze cu sisteme externe și API-uri.

Rămâi la curent

Primește ultimele știri AI în inbox-ul tău.

Distribuie