Rezultatet e Benchmark-eve të Gemini 3.1 Pro
Google DeepMind lançoi Gemini 3.1 Pro më 19 shkurt 2026. Modeli më shumë se dyfishon performancën e arsyetimit të paraardhësit, duke arritur 77.1% në ARC-AGI-2 kundrejt Gemini 3 Pro.
Gemini 3.1 Pro synon detyra që kërkojnë arsyetim me shumë hapa: hartim algoritmesh, sintezë të dhënash në shkallë të gjerë, flukse pune agentike dhe kodim kompleks.
Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2
| Benchmark | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2-Codex |
|---|---|---|---|
| ARC-AGI-2 | 77.1% | — | — |
| RE-Bench (ML R&D) | 1.27 | — | — |
| Terminal-Bench 2.0 | — | #1 | 64.0% |
| Humanity's Last Exam | — | #1 | — |
| Konteksti (hyrje) | 1M | 200K (1M beta) | 400K |
| Konteksti (dalje) | 64K | 128K | 128K |
Secili model udhëheq në fusha të ndryshme. Gemini 3.1 Pro kryeson benchmark-et e arsyetimit të ri. Claude Opus 4.6 udhëheq kodimin agentik dhe arsyetimin multidisiplinar. GPT-5.2-Codex ofron performancë konkurruese kodimi me çmime më të ulëta.
Veçoritë Kryesore për Zhvilluesit
Thellësi Mendimi e Konfigurueshme
Gemini 3.1 Pro prezanton një parametër thinking_level që kontrollon thellësinë e arsyetimit. Mendimi i ulët është i shpejtë dhe i lirë për detyra rutinë. Mendimi i lartë zbaton më shumë llogaritje për probleme komplekse.
Kjo është e ngjashme me kontrollet e përpjekjes së Claude Opus 4.6, megjithëse Gemini e ekspozon cilësimin si parametër eksplicit API në vend të sjelljes adaptive të modelit.
Endpoint-i i Mjeteve të Personalizuara
Një endpoint i veçantë, gemini-3.1-pro-preview-customtools, është i optimizuar për aplikacione agentike që kombinojnë komanda shell me mjete të personalizuara. Ai prioritizon zgjedhjen dhe thirrjen e saktë të mjeteve, duke zvogëluar gabimet kur agjentët ndërveprojnë me sisteme të jashtme. Kjo ka rëndësi për zhvilluesit që ndërtojnë agjentë të ngjashëm me GitHub Agentic Workflows, ku saktësia e zgjedhjes së mjeteve ndikon drejtpërdrejt besueshmërinë e automatizimit.
Hyrja e URL-ve YouTube
Zhvilluesit mund të kalojnë URL YouTube direkt në prompt. Modeli analizon përmbajtjen video, duke mundësuar flukse pune që kombinojnë kuptimin e videos me gjenerim kodi ose dokumentacioni.
Përpunimi Multimodal
Gemini 3.1 Pro trajton tekst, imazhe, audio, video dhe kod në një kontekst të vetëm. Me një dritare hyrëse 1M tokena, mund të përpunojë codebase të tëra ose dokumente kërkimore të gjata në një kalim.
RE-Bench: Performanca në Kërkimin ML
Në RE-Bench, i cili vlerëson aftësitë e kërkimit dhe zhvillimit ML, Gemini 3.1 Pro arrin 1.27 (i normalizuar për njerëzit), nga 1.04 i Gemini 3 Pro. Modeli përfundoi detyrat e optimizimit në 47 sekonda kundrejt referencës njerëzore prej 94 sekondash.
Disponueshmëria e Gemini 3.1 Pro
Gemini 3.1 Pro është i disponueshëm në aplikacionin Gemini, Google Cloud Vertex AI, Google AI Studio dhe API-në Gemini. Çmimet variojnë sipas platformës. Modeli është në paraparje; disponueshmëria e përgjithshme pritet të vijë.
Burimi origjinal
https://blog.google/technology/google-deepmind/gemini-3-1-pro/Pyetjet e bëra shpesh
Çfarë është Gemini 3.1 Pro?
Si krahasohet Gemini 3.1 Pro me Claude Opus 4.6?
Çfarë është parametri thinking_level në Gemini 3.1 Pro?
Çfarë është endpoint-i i mjeteve të personalizuara në Gemini 3.1 Pro?
Qëndroni të përditësuar
Merrni lajmet më të fundit të AI në email.
