Code Velocity
AI Modeli

Gemini 3.1 Pro: Googleov Model s Fokusom na Zaključivanje

·6 min čitanja·Google, Google DeepMind·Izvorni izvor
Podijeli
Usporedba benchmarkova Gemini 3.1 Pro s rezultatima ARC-AGI-2 i RE-Bench u odnosu na Gemini 3 Pro i druge vodeće modele

Rezultati Benchmarkova Gemini 3.1 Pro

Google DeepMind objavio je Gemini 3.1 Pro 19. veljače 2026. Model više nego udvostručuje performanse zaključivanja svog prethodnika, postižući 77.1% na ARC-AGI-2 u usporedbi s Gemini 3 Pro.

Gemini 3.1 Pro cilja na zadatke koji zahtijevaju višekoračno zaključivanje: dizajn algoritama, sintezu podataka velikog opsega, agentne radne tokove i složeno kodiranje.

Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2

BenchmarkGemini 3.1 ProClaude Opus 4.6GPT-5.2-Codex
ARC-AGI-277.1%
RE-Bench (ML R&D)1.27
Terminal-Bench 2.0#164.0%
Humanity's Last Exam#1
Kontekst (ulaz)1M200K (1M beta)400K
Kontekst (izlaz)64K128K128K

Svaki model vodi u različitim područjima. Gemini 3.1 Pro predvodi benchmarkove novog zaključivanja. Claude Opus 4.6 vodi u agentnom kodiranju i multidisciplinarnom zaključivanju. GPT-5.2-Codex nudi konkurentne performanse kodiranja po nižoj cijeni.

Ključne Značajke za Programere

Prilagodljiva Dubina Zaključivanja

Gemini 3.1 Pro uvodi parametar thinking_level koji kontrolira dubinu zaključivanja. Niska razina thinkinga je brza i jeftina za rutinske zadatke. Visoka razina thinkinga primjenjuje više računanja na složene probleme.

To je slično kontrolama napora Claude Opusa 4.6, iako Gemini izlaže postavku kao eksplicitni API parametar umjesto adaptivnog ponašanja modela.

Endpoint za Custom Tools

Zaseban endpoint, gemini-3.1-pro-preview-customtools, optimiziran je za agentne aplikacije koje kombiniraju shell naredbe s prilagođenim alatima. Prioritizira ispravan odabir i pozivanje alata, smanjujući pogreške kad agenti komuniciraju s vanjskim sustavima. To je relevantno za programere koji grade agente slične GitHub Agentic Workflows, gdje točnost odabira alata izravno utječe na pouzdanost automatizacije.

Unos YouTube URL-a

Programeri mogu proslijediti YouTube URL-ove izravno u promptove. Model analizira video sadržaj, omogućujući radne tokove koji kombiniraju razumijevanje videa s generiranjem koda ili dokumentacije.

Multimodalna Obrada

Gemini 3.1 Pro obrađuje tekst, slike, zvuk, video i kod u jednom kontekstu. S ulaznim prozorom od 1M tokena može obraditi cijele kodne baze ili duge istraživačke dokumente odjednom.

RE-Bench: Performanse u ML Istraživanju

Na RE-Bench, koji procjenjuje sposobnosti ML istraživanja i razvoja, Gemini 3.1 Pro postiže 1.27 (normalizirano prema čovjeku), porast s 1.04 kod Gemini 3 Pro. Model je dovršio zadatke optimizacije u 47 sekundi nasuprot 94-sekundnom ljudskom referentnom vremenu.

Dostupnost Gemini 3.1 Pro

Gemini 3.1 Pro dostupan je u aplikaciji Gemini, Google Cloud Vertex AI, Google AI Studio i Gemini API. Cijene variraju po platformi. Model je u pregledu; opća dostupnost se očekuje naknadno.

Često postavljana pitanja

Što je Gemini 3.1 Pro?
Gemini 3.1 Pro je nadogradnja serije Gemini 3 tvrtke Google DeepMind optimizirana za zaključivanje, objavljena 19. veljače 2026. Postiže 77.1% na ARC-AGI-2, više nego udvostručujući performanse zaključivanja Gemini 3 Pro. Model podržava ulazni kontekst od 1M tokena i 64K izlaznih tokena te uvodi parametar thinking_level koji programerima omogućuje kontrolu dubine zaključivanja modela prije odgovora.
Kako se Gemini 3.1 Pro uspoređuje s Claude Opusom 4.6?
Gemini 3.1 Pro i Claude Opus 4.6 ciljaju na različite snage. Gemini 3.1 Pro vodi na ARC-AGI-2 (77.1%) i RE-Bench za ML R&D, dok Claude Opus 4.6 drži vodeću poziciju na Terminal-Bench 2.0 za agentno kodiranje i Humanity's Last Exam za multidisciplinarno zaključivanje. Oba nude kontekstualne prozore od 1M tokena. Izbor ovisi o opterećenju: Gemini je izvrstan u novim zadacima zaključivanja, Claude u dugotrajnom radu s kodom.
Što je parametar thinking_level u Gemini 3.1 Pro?
Parametar thinking_level omogućuje programerima kontrolu maksimalne dubine zaključivanja koju model primjenjuje prije generiranja odgovora. Niska razina thinkinga je brža i jeftinija za jednostavne zadatke. Visoka razina thinkinga dodjeljuje više računalnog vremena za složene probleme zaključivanja. To programerima daje izričitu kontrolu nad kompromisom između cijene, brzine i kvalitete, slično kontrolama napora u Claude Opusu 4.6.
Što je endpoint za custom tools u Gemini 3.1 Pro?
Gemini 3.1 Pro uključuje zaseban API endpoint nazvan gemini-3.1-pro-preview-customtools, optimiziran za prioritiziranje prilagođenih alata programera. Pri izgradnji agentnih aplikacija s kombinacijom bash naredbi i prilagođenih alata, ovaj endpoint osigurava da model ispravno odabire i poziva pravi alat. To je posebno korisno za programere koji grade AI agente koji trebaju komunicirati s vanjskim sustavima i API-jima.

Budite u toku

Primajte najnovije AI vijesti na e-mail.

Podijeli