Gemini 3.1 Pro benchmark eredmények
A Google DeepMind 2026. február 19-én adta ki a Gemini 3.1 Pro-t. A modell több mint megduplázza elődje gondolkodási teljesítményét, 77,1%-ot érve el az ARC-AGI-2-n a Gemini 3 Pro-hoz képest.
A Gemini 3.1 Pro többlépéses gondolkodást igénylő feladatokat céloz meg: algoritmustervezés, nagyméretű adatszintézis, agens munkafolyamatok és összetett kódolás.
Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2
| Benchmark | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2-Codex |
|---|---|---|---|
| ARC-AGI-2 | 77,1% | — | — |
| RE-Bench (ML K+F) | 1,27 | — | — |
| Terminal-Bench 2.0 | — | #1 | 64,0% |
| Humanity's Last Exam | — | #1 | — |
| Kontextus (bemenet) | 1M | 200K (1M beta) | 400K |
| Kontextus (kimenet) | 64K | 128K | 128K |
Minden modell más területen vezet. A Gemini 3.1 Pro az újszerű gondolkodási benchmarkokban élen jár. A Claude Opus 4.6 az agens kódolásban és multidiszciplináris gondolkodásban vezet. A GPT-5.2-Codex versenyképes kódolási teljesítményt kínál alacsonyabb áron.
Kulcsfontosságú funkciók fejlesztőknek
Beállítható gondolkodási mélység
A Gemini 3.1 Pro bevezeti a thinking_level paramétert a gondolkodás mélységének szabályozásához. Az alacsony gondolkodás gyors és olcsó a rutinfeladatokhoz. A magas gondolkodás több számítást fordít az összetett problémákra.
Ez hasonló a Claude Opus 4.6 erőfeszítés-szabályozóihoz, bár a Gemini explicit API paraméterként teszi elérhetővé a beállítást az adaptív modellviselkedés helyett.
Egyedi eszközök végpont
Egy külön végpont, a gemini-3.1-pro-preview-customtools, agens alkalmazásokra van optimalizálva, amelyek shell parancsokat és egyedi eszközöket kombinálnak. Priorizálja a helyes eszközválasztást és meghívást, csökkentve a hibákat, amikor az ágensek külső rendszerekkel kommunikálnak. Ez releváns olyan fejlesztők számára, akik a GitHub Agentic Workflows-hoz hasonló ágenseket építenek, ahol az eszközválasztás pontossága közvetlenül befolyásolja az automatizálás megbízhatóságát.
YouTube URL bemenet
A fejlesztők YouTube URL-eket adhatnak közvetlenül a promptokba. A modell elemzi a videótartalmat, lehetővé téve munkafolyamatokat, amelyek a videó megértését kódgenerálással vagy dokumentációval kombinálják.
Multimodális feldolgozás
A Gemini 3.1 Pro szöveget, képeket, hangot, videót és kódot kezel egyetlen kontextusban. 1M tokenes bemeneti ablakával teljes kódbázisokat vagy hosszú kutatási dokumentumokat dolgozhat fel egyetlen menetben.
RE-Bench: ML kutatási teljesítmény
A RE-Bench-en, amely az ML kutatási és fejlesztési képességeket értékeli, a Gemini 3.1 Pro 1,27-et ér el (emberi normalizált), a Gemini 3 Pro 1,04-éről javulva. A modell 47 másodperc alatt teljesítette az optimalizálási feladatokat a 94 másodperces emberi referenciával szemben.
Gemini 3.1 Pro elérhetőség
A Gemini 3.1 Pro elérhető a Gemini alkalmazásban, a Google Cloud Vertex AI-on, a Google AI Studio-ban és a Gemini API-n. Az árazás platformonként változik. A modell előnézeti verzióban van; az általános elérhetőség a későbbiekben várható.
Gyakran ismételt kérdések
Mi az a Gemini 3.1 Pro?
Hogyan viszonyul a Gemini 3.1 Pro a Claude Opus 4.6-hoz?
Mi az a thinking_level paraméter a Gemini 3.1 Pro-ban?
Mi az egyedi eszközök végpont a Gemini 3.1 Pro-ban?
Maradjon naprakész
Kapja meg a legfrissebb AI híreket e-mailben.
