Code Velocity
Modeli UI

Gemini 3.1 Pro: Googlov model s poudarkom na sklepanju

·6 min branja·Google, Google DeepMind·Izvirni vir
Deli
Primerjava meril Gemini 3.1 Pro, ki prikazuje rezultate ARC-AGI-2 in RE-Bench v primerjavi z Gemini 3 Pro in drugimi mejnimi modeli

Rezultati meril Gemini 3.1 Pro

Google DeepMind je 19. februarja 2026 izdal Gemini 3.1 Pro. Model več kot podvoji zmogljivost sklepanja svojega predhodnika — dosega 77,1 % na ARC-AGI-2 v primerjavi z Gemini 3 Pro.

Gemini 3.1 Pro cilja naloge, ki zahtevajo večstopenjsko sklepanje: načrtovanje algoritmov, obsežno sintezo podatkov, agentne delovne tokove in zahtevno kodiranje.

Gemini 3.1 Pro proti Claude Opus 4.6 proti GPT-5.2

MeriloGemini 3.1 ProClaude Opus 4.6GPT-5.2-Codex
ARC-AGI-277,1 %
RE-Bench (ML R&D)1,27
Terminal-Bench 2.0#164,0 %
Humanity's Last Exam#1
Kontekst (vhod)1M200K (1M beta)400K
Kontekst (izhod)64K128K128K

Vsak model vodi na različnih področjih. Gemini 3.1 Pro je na vrhu meril novega sklepanja. Claude Opus 4.6 vodi v agentnem kodiranju in multidisciplinarnem sklepanju. GPT-5.2-Codex ponuja konkurenčno zmogljivost kodiranja po nižji ceni.

Ključne funkcije za razvijalce

Nastavljiva globina razmišljanja

Gemini 3.1 Pro uvaja parameter thinking_level za nadzor globine sklepanja. Nizko razmišljanje je hitro in cenovno ugodno za rutinske naloge. Visoko razmišljanje nameni več računske moči zapletenim problemom.

To je podobno kontrolam napora Claude Opus 4.6, čeprav Gemini nastavitev izpostavlja kot izrecen parameter API namesto prilagodljivega vedenja modela.

Končna točka za orodja po meri

Ločena končna točka, gemini-3.1-pro-preview-customtools, je optimizirana za agentne aplikacije, ki združujejo ukaze lupine z orodji po meri. Prednostno obravnava pravilno izbiro in klic orodij, kar zmanjšuje napake, ko agenti komunicirajo z zunanjimi sistemi. To je relevantno za razvijalce, ki gradijo agente podobne GitHub Agentic Workflows, kjer natančnost izbire orodij neposredno vpliva na zanesljivost avtomatizacije.

Vnos URL-jev YouTube

Razvijalci lahko posredujejo URL-je YouTube neposredno v pozive. Model analizira vsebino videoposnetka, kar omogoča delovne tokove, ki združujejo razumevanje videa z generiranjem kode ali dokumentacije.

Multimodalna obdelava

Gemini 3.1 Pro obdeluje besedilo, slike, zvok, video in kodo v enem kontekstu. Z vhodnim oknom 1M žetonov lahko obdela celotne kodne baze ali dolge raziskovalne dokumente v enem prehodu.

RE-Bench: zmogljivost v raziskavah ML

Na RE-Bench, ki ocenjuje zmogljivosti raziskav in razvoja ML, Gemini 3.1 Pro dosega 1,27 (normalizirano na človeka), v primerjavi z 1,04 pri Gemini 3 Pro. Model je naloge optimizacije zaključil v 47 sekundah v primerjavi s 94-sekundno človeško referenčno vrednostjo.

Razpoložljivost Gemini 3.1 Pro

Gemini 3.1 Pro je na voljo v aplikaciji Gemini, Google Cloud Vertex AI, Google AI Studio in prek API Gemini. Cene se razlikujejo glede na platformo. Model je v predogledu; splošna razpoložljivost se pričakuje kmalu.

Pogosta vprašanja

Kaj je Gemini 3.1 Pro?
Gemini 3.1 Pro je za sklepanje optimizirana nadgradnja serije Gemini 3 od Google DeepMind, izdana 19. februarja 2026. Dosega 77,1 % na ARC-AGI-2, kar je več kot dvakratna zmogljivost sklepanja Gemini 3 Pro. Model podpira vhodni kontekst 1M žetonov in 64K izhodnih žetonov ter uvaja parameter thinking_level, ki razvijalcem omogoča nadzor nad globino sklepanja modela pred odgovorom.
Kako se Gemini 3.1 Pro primerja s Claude Opus 4.6?
Gemini 3.1 Pro in Claude Opus 4.6 ciljata različne prednosti. Gemini 3.1 Pro vodi na ARC-AGI-2 (77,1 %) in RE-Bench za raziskave in razvoj ML, medtem ko Claude Opus 4.6 drži vrh na Terminal-Bench 2.0 za agentno kodiranje in Humanity's Last Exam za multidisciplinarno sklepanje. Oba ponujata kontekstna okna 1M žetonov. Izbira je odvisna od delovne obremenitve: Gemini izstopa pri nalogah novega sklepanja, Claude pri trajnem kodiranju.
Kaj je parameter thinking_level v Gemini 3.1 Pro?
Parameter thinking_level razvijalcem omogoča nadzor nad največjo globino sklepanja, ki jo model uporabi pred generiranjem odgovora. Nizko razmišljanje je hitrejše in cenejše za preproste naloge. Visoko razmišljanje nameni več računskega časa zapletenim problemom sklepanja. To razvijalcem daje izrecen nadzor nad razmerjem cena-hitrost-kakovost, podobno kot kontrole napora v Claude Opus 4.6.
Kaj je končna točka za orodja po meri v Gemini 3.1 Pro?
Gemini 3.1 Pro vključuje ločeno končno točko API z imenom gemini-3.1-pro-preview-customtools, optimizirano za prednostno obravnavo orodij razvijalcev. Pri gradnji agentnih aplikacij z mešanico ukazov bash in orodij po meri ta končna točka zagotavlja, da model pravilno izbere in pokliče ustrezno orodje. To je še posebej koristno za razvijalce, ki gradijo agente UI za interakcijo z zunanjimi sistemi in API-ji.

Bodite na tekočem

Prejemajte najnovejše AI novice po e-pošti.

Deli