Code Velocity
MI modellek

Gemini 3.1 Pro: A Google gondolkodás-központú modellje

·6 perc olvasás·Google, Google DeepMind·Eredeti forrás
Megosztás
Gemini 3.1 Pro benchmark összehasonlítás az ARC-AGI-2 és RE-Bench pontszámokkal a Gemini 3 Pro és más élvonalbeli modellekhez képest

Gemini 3.1 Pro benchmark eredmények

A Google DeepMind 2026. február 19-én adta ki a Gemini 3.1 Pro-t. A modell több mint megduplázza elődje gondolkodási teljesítményét, 77,1%-ot érve el az ARC-AGI-2-n a Gemini 3 Pro-hoz képest.

A Gemini 3.1 Pro többlépéses gondolkodást igénylő feladatokat céloz meg: algoritmustervezés, nagyméretű adatszintézis, agens munkafolyamatok és összetett kódolás.

Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2

BenchmarkGemini 3.1 ProClaude Opus 4.6GPT-5.2-Codex
ARC-AGI-277,1%
RE-Bench (ML K+F)1,27
Terminal-Bench 2.0#164,0%
Humanity's Last Exam#1
Kontextus (bemenet)1M200K (1M beta)400K
Kontextus (kimenet)64K128K128K

Minden modell más területen vezet. A Gemini 3.1 Pro az újszerű gondolkodási benchmarkokban élen jár. A Claude Opus 4.6 az agens kódolásban és multidiszciplináris gondolkodásban vezet. A GPT-5.2-Codex versenyképes kódolási teljesítményt kínál alacsonyabb áron.

Kulcsfontosságú funkciók fejlesztőknek

Beállítható gondolkodási mélység

A Gemini 3.1 Pro bevezeti a thinking_level paramétert a gondolkodás mélységének szabályozásához. Az alacsony gondolkodás gyors és olcsó a rutinfeladatokhoz. A magas gondolkodás több számítást fordít az összetett problémákra.

Ez hasonló a Claude Opus 4.6 erőfeszítés-szabályozóihoz, bár a Gemini explicit API paraméterként teszi elérhetővé a beállítást az adaptív modellviselkedés helyett.

Egyedi eszközök végpont

Egy külön végpont, a gemini-3.1-pro-preview-customtools, agens alkalmazásokra van optimalizálva, amelyek shell parancsokat és egyedi eszközöket kombinálnak. Priorizálja a helyes eszközválasztást és meghívást, csökkentve a hibákat, amikor az ágensek külső rendszerekkel kommunikálnak. Ez releváns olyan fejlesztők számára, akik a GitHub Agentic Workflows-hoz hasonló ágenseket építenek, ahol az eszközválasztás pontossága közvetlenül befolyásolja az automatizálás megbízhatóságát.

YouTube URL bemenet

A fejlesztők YouTube URL-eket adhatnak közvetlenül a promptokba. A modell elemzi a videótartalmat, lehetővé téve munkafolyamatokat, amelyek a videó megértését kódgenerálással vagy dokumentációval kombinálják.

Multimodális feldolgozás

A Gemini 3.1 Pro szöveget, képeket, hangot, videót és kódot kezel egyetlen kontextusban. 1M tokenes bemeneti ablakával teljes kódbázisokat vagy hosszú kutatási dokumentumokat dolgozhat fel egyetlen menetben.

RE-Bench: ML kutatási teljesítmény

A RE-Bench-en, amely az ML kutatási és fejlesztési képességeket értékeli, a Gemini 3.1 Pro 1,27-et ér el (emberi normalizált), a Gemini 3 Pro 1,04-éről javulva. A modell 47 másodperc alatt teljesítette az optimalizálási feladatokat a 94 másodperces emberi referenciával szemben.

Gemini 3.1 Pro elérhetőség

A Gemini 3.1 Pro elérhető a Gemini alkalmazásban, a Google Cloud Vertex AI-on, a Google AI Studio-ban és a Gemini API-n. Az árazás platformonként változik. A modell előnézeti verzióban van; az általános elérhetőség a későbbiekben várható.

Gyakran ismételt kérdések

Mi az a Gemini 3.1 Pro?
A Gemini 3.1 Pro a Google DeepMind gondolkodásra optimalizált frissítése a Gemini 3 sorozathoz, amely 2026. február 19-én jelent meg. 77,1%-ot ér el az ARC-AGI-2-n, több mint megduplázva a Gemini 3 Pro gondolkodási teljesítményét. A modell 1M tokenes bemeneti kontextust és 64K kimeneti tokeneket támogat, és bevezeti a thinking_level paramétert, amellyel a fejlesztők szabályozhatják, milyen mélyen gondolkodjon a modell válaszadás előtt.
Hogyan viszonyul a Gemini 3.1 Pro a Claude Opus 4.6-hoz?
A Gemini 3.1 Pro és a Claude Opus 4.6 eltérő erősségeket céloznak. A Gemini 3.1 Pro vezet az ARC-AGI-2-n (77,1%) és a RE-Bench ML K+F-ben, míg a Claude Opus 4.6 tartja az első helyet a Terminal-Bench 2.0-n az agens kódolásban és a Humanity's Last Exam-on a multidiszciplináris gondolkodásban. Mindkettő 1M tokenes kontextusablakkal rendelkezik. A választás a feladattól függ: a Gemini újszerű gondolkodási feladatokban jeleskedik, a Claude a tartós kódolási munkában.
Mi az a thinking_level paraméter a Gemini 3.1 Pro-ban?
A thinking_level paraméter lehetővé teszi a fejlesztők számára, hogy szabályozzák a gondolkodás maximális mélységét, amelyet a modell a válaszadás előtt alkalmaz. Az alacsony gondolkodás gyorsabb és olcsóbb az egyszerű feladatokhoz. A magas gondolkodás több számítási időt szán az összetett gondolkodási problémákra. Ez explicit kontrollt ad a fejlesztőknek a költség-sebesség-minőség egyensúly felett, hasonlóan a Claude Opus 4.6 erőfeszítés-szabályozóihoz.
Mi az egyedi eszközök végpont a Gemini 3.1 Pro-ban?
A Gemini 3.1 Pro tartalmaz egy külön API végpontot gemini-3.1-pro-preview-customtools néven, amely egyedi fejlesztői eszközök priorizálására van optimalizálva. Amikor agens alkalmazásokat építenek bash parancsokkal és egyedi eszközökkel, ez a végpont biztosítja, hogy a modell helyesen válassza ki és hívja meg a megfelelő eszközt. Ez különösen hasznos olyan MI ágenseket építő fejlesztők számára, amelyeknek külső rendszerekkel és API-kkal kell kommunikálniuk.

Maradjon naprakész

Kapja meg a legfrissebb AI híreket e-mailben.

Megosztás