Risultati dei Benchmark di Gemini 3.1 Pro
Google DeepMind ha rilasciato Gemini 3.1 Pro il 19 febbraio 2026. Il modello più che raddoppia le prestazioni di ragionamento del suo predecessore, ottenendo il 77.1% su ARC-AGI-2 rispetto a Gemini 3 Pro.
Gemini 3.1 Pro si concentra su compiti che richiedono ragionamento multi-step: progettazione di algoritmi, sintesi di dati su larga scala, workflow agentici e programmazione complessa.
Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2
| Benchmark | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2-Codex |
|---|---|---|---|
| ARC-AGI-2 | 77.1% | — | — |
| RE-Bench (R&D ML) | 1.27 | — | — |
| Terminal-Bench 2.0 | — | #1 | 64.0% |
| Humanity's Last Exam | — | #1 | — |
| Contesto (input) | 1M | 200K (1M beta) | 400K |
| Contesto (output) | 64K | 128K | 128K |
Ogni modello eccelle in aree diverse. Gemini 3.1 Pro guida nei benchmark di ragionamento innovativo. Claude Opus 4.6 primeggia nel coding agentico e nel ragionamento multidisciplinare. GPT-5.2-Codex offre prestazioni di coding competitive a un prezzo inferiore.
Funzionalità Chiave per gli Sviluppatori
Profondità di Pensiero Configurabile
Gemini 3.1 Pro introduce un parametro thinking_level per controllare la profondità di ragionamento. Il pensiero basso è rapido ed economico per compiti di routine. Il pensiero alto applica più calcolo a problemi complessi.
Questo è simile ai controlli di effort di Claude Opus 4.6, anche se Gemini espone l'impostazione come parametro API esplicito anziché come comportamento adattivo del modello.
Endpoint per Strumenti Personalizzati
Un endpoint separato, gemini-3.1-pro-preview-customtools, è ottimizzato per applicazioni agentiche che combinano comandi shell con strumenti personalizzati. Dà priorità alla corretta selezione e invocazione degli strumenti, riducendo gli errori quando gli agenti interagiscono con sistemi esterni. Questo è rilevante per gli sviluppatori che costruiscono agenti simili a GitHub Agentic Workflows, dove l'accuratezza nella selezione degli strumenti influisce direttamente sull'affidabilità dell'automazione.
Input URL di YouTube
Gli sviluppatori possono inserire URL di YouTube direttamente nei prompt. Il modello analizza il contenuto video, abilitando workflow che combinano la comprensione video con la generazione di codice o documentazione.
Elaborazione Multimodale
Gemini 3.1 Pro gestisce testo, immagini, audio, video e codice in un unico contesto. Con una finestra di input da 1M di token, può elaborare interi codebase o lunghi documenti di ricerca in un'unica passata.
RE-Bench: Prestazioni nella Ricerca ML
Su RE-Bench, che valuta le capacità di ricerca e sviluppo ML, Gemini 3.1 Pro ottiene 1.27 (normalizzato rispetto all'umano), in aumento rispetto all'1.04 di Gemini 3 Pro. Il modello ha completato compiti di ottimizzazione in 47 secondi contro i 94 secondi del riferimento umano.
Disponibilità di Gemini 3.1 Pro
Gemini 3.1 Pro è disponibile nell'app Gemini, Google Cloud Vertex AI, Google AI Studio e nell'API Gemini. I prezzi variano in base alla piattaforma. Il modello è in anteprima; la disponibilità generale è prevista a breve.
Domande Frequenti
Cos'è Gemini 3.1 Pro?
Come si confronta Gemini 3.1 Pro con Claude Opus 4.6?
Cos'è il parametro thinking_level in Gemini 3.1 Pro?
Cos'è l'endpoint per strumenti personalizzati in Gemini 3.1 Pro?
Resta aggiornato
Ricevi le ultime notizie sull'IA nella tua casella.
