Code Velocity
Modelli IA

Gemini 3.1 Pro: Il modello di ragionamento di Google

·6 min di lettura·Google, Google DeepMind·Fonte originale
Condividi
Confronto dei benchmark di Gemini 3.1 Pro con punteggi ARC-AGI-2 e RE-Bench rispetto a Gemini 3 Pro e altri modelli di frontiera

Risultati dei Benchmark di Gemini 3.1 Pro

Google DeepMind ha rilasciato Gemini 3.1 Pro il 19 febbraio 2026. Il modello più che raddoppia le prestazioni di ragionamento del suo predecessore, ottenendo il 77.1% su ARC-AGI-2 rispetto a Gemini 3 Pro.

Gemini 3.1 Pro si concentra su compiti che richiedono ragionamento multi-step: progettazione di algoritmi, sintesi di dati su larga scala, workflow agentici e programmazione complessa.

Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2

BenchmarkGemini 3.1 ProClaude Opus 4.6GPT-5.2-Codex
ARC-AGI-277.1%
RE-Bench (R&D ML)1.27
Terminal-Bench 2.0#164.0%
Humanity's Last Exam#1
Contesto (input)1M200K (1M beta)400K
Contesto (output)64K128K128K

Ogni modello eccelle in aree diverse. Gemini 3.1 Pro guida nei benchmark di ragionamento innovativo. Claude Opus 4.6 primeggia nel coding agentico e nel ragionamento multidisciplinare. GPT-5.2-Codex offre prestazioni di coding competitive a un prezzo inferiore.

Funzionalità Chiave per gli Sviluppatori

Profondità di Pensiero Configurabile

Gemini 3.1 Pro introduce un parametro thinking_level per controllare la profondità di ragionamento. Il pensiero basso è rapido ed economico per compiti di routine. Il pensiero alto applica più calcolo a problemi complessi.

Questo è simile ai controlli di effort di Claude Opus 4.6, anche se Gemini espone l'impostazione come parametro API esplicito anziché come comportamento adattivo del modello.

Endpoint per Strumenti Personalizzati

Un endpoint separato, gemini-3.1-pro-preview-customtools, è ottimizzato per applicazioni agentiche che combinano comandi shell con strumenti personalizzati. Dà priorità alla corretta selezione e invocazione degli strumenti, riducendo gli errori quando gli agenti interagiscono con sistemi esterni. Questo è rilevante per gli sviluppatori che costruiscono agenti simili a GitHub Agentic Workflows, dove l'accuratezza nella selezione degli strumenti influisce direttamente sull'affidabilità dell'automazione.

Input URL di YouTube

Gli sviluppatori possono inserire URL di YouTube direttamente nei prompt. Il modello analizza il contenuto video, abilitando workflow che combinano la comprensione video con la generazione di codice o documentazione.

Elaborazione Multimodale

Gemini 3.1 Pro gestisce testo, immagini, audio, video e codice in un unico contesto. Con una finestra di input da 1M di token, può elaborare interi codebase o lunghi documenti di ricerca in un'unica passata.

RE-Bench: Prestazioni nella Ricerca ML

Su RE-Bench, che valuta le capacità di ricerca e sviluppo ML, Gemini 3.1 Pro ottiene 1.27 (normalizzato rispetto all'umano), in aumento rispetto all'1.04 di Gemini 3 Pro. Il modello ha completato compiti di ottimizzazione in 47 secondi contro i 94 secondi del riferimento umano.

Disponibilità di Gemini 3.1 Pro

Gemini 3.1 Pro è disponibile nell'app Gemini, Google Cloud Vertex AI, Google AI Studio e nell'API Gemini. I prezzi variano in base alla piattaforma. Il modello è in anteprima; la disponibilità generale è prevista a breve.

Domande Frequenti

Cos'è Gemini 3.1 Pro?
Gemini 3.1 Pro è l'aggiornamento ottimizzato per il ragionamento della serie Gemini 3 di Google DeepMind, rilasciato il 19 febbraio 2026. Ottiene il 77.1% su ARC-AGI-2, più del doppio delle prestazioni di ragionamento di Gemini 3 Pro. Il modello supporta un contesto di input da 1M di token e 64K token in output e introduce un parametro thinking_level che permette agli sviluppatori di controllare la profondità di ragionamento del modello prima di rispondere.
Come si confronta Gemini 3.1 Pro con Claude Opus 4.6?
Gemini 3.1 Pro e Claude Opus 4.6 eccellono in aree diverse. Gemini 3.1 Pro guida in ARC-AGI-2 (77.1%) e RE-Bench per R&D ML, mentre Claude Opus 4.6 mantiene la prima posizione su Terminal-Bench 2.0 per il coding agentico e Humanity's Last Exam per il ragionamento multidisciplinare. Entrambi offrono finestre di contesto da 1M di token. La scelta dipende dal carico di lavoro: Gemini eccelle nei compiti di ragionamento innovativo, Claude nel lavoro di programmazione continuativo.
Cos'è il parametro thinking_level in Gemini 3.1 Pro?
Il parametro thinking_level consente agli sviluppatori di controllare la profondità massima di ragionamento che il modello applica prima di produrre una risposta. Il pensiero basso è più veloce ed economico per compiti semplici. Il pensiero alto assegna più tempo di calcolo per problemi di ragionamento complessi. Questo offre agli sviluppatori un controllo esplicito sul compromesso costo-velocità-qualità, simile ai controlli di effort in Claude Opus 4.6.
Cos'è l'endpoint per strumenti personalizzati in Gemini 3.1 Pro?
Gemini 3.1 Pro include un endpoint API separato chiamato gemini-3.1-pro-preview-customtools, ottimizzato per dare priorità agli strumenti personalizzati degli sviluppatori. Nella costruzione di applicazioni agentiche con un mix di comandi bash e strumenti personalizzati, questo endpoint garantisce che il modello selezioni e invochi correttamente lo strumento giusto. È particolarmente utile per gli sviluppatori che creano agenti IA che devono interagire con sistemi e API esterni.

Resta aggiornato

Ricevi le ultime notizie sull'IA nella tua casella.

Condividi