Code Velocity
Model AI

Gemini 3.1 Pro: Model Penaakulan Utama Google

·6 min bacaan·Google, Google DeepMind·Sumber asal
Kongsi
Perbandingan penanda aras Gemini 3.1 Pro menunjukkan skor ARC-AGI-2 dan RE-Bench berbanding Gemini 3 Pro dan model terdepan lain

Keputusan Penanda Aras Gemini 3.1 Pro

Google DeepMind mengeluarkan Gemini 3.1 Pro pada 19 Februari 2026. Model ini lebih dua kali ganda prestasi penaakulan pendahulunya, mencatat 77.1% pada ARC-AGI-2 berbanding Gemini 3 Pro.

Gemini 3.1 Pro menyasarkan tugas yang memerlukan penaakulan berbilang langkah: reka bentuk algoritma, sintesis data berskala besar, aliran kerja agentik, dan pengekodan kompleks.

Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2

Penanda ArasGemini 3.1 ProClaude Opus 4.6GPT-5.2-Codex
ARC-AGI-277.1%
RE-Bench (ML R&D)1.27
Terminal-Bench 2.0#164.0%
Humanity's Last Exam#1
Konteks (input)1M200K (1M beta)400K
Konteks (output)64K128K128K

Setiap model mendahului dalam bidang berbeza. Gemini 3.1 Pro mendahului penanda aras penaakulan novel. Claude Opus 4.6 mendahului pengekodan agentik dan penaakulan multidisiplin. GPT-5.2-Codex menawarkan prestasi pengekodan kompetitif pada harga lebih rendah.

Ciri Utama untuk Pembangun

Kedalaman Pemikiran Boleh Dikonfigurasi

Gemini 3.1 Pro memperkenalkan parameter thinking_level yang mengawal kedalaman penaakulan. Pemikiran rendah pantas dan murah untuk tugas rutin. Pemikiran tinggi menggunakan lebih banyak pengiraan untuk masalah kompleks.

Ini serupa dengan kawalan usaha Claude Opus 4.6, walaupun Gemini mendedahkan tetapan ini sebagai parameter API eksplisit dan bukannya tingkah laku model adaptif.

Titik Akhir Alat Tersuai

Titik akhir berasingan, gemini-3.1-pro-preview-customtools, dioptimumkan untuk aplikasi agentik menggabungkan arahan shell dengan alat tersuai. Ia mengutamakan pemilihan dan panggilan alat yang betul, mengurangkan ralat apabila agen berinteraksi dengan sistem luaran. Ini relevan untuk pembangun membina agen serupa dengan GitHub Agentic Workflows, di mana ketepatan pemilihan alat memberi kesan langsung kepada kebolehpercayaan automasi.

Input URL YouTube

Pembangun boleh menghantar URL YouTube terus ke dalam prompt. Model menganalisis kandungan video, membolehkan aliran kerja menggabungkan pemahaman video dengan penjanaan kod atau dokumentasi.

Pemprosesan Multimodal

Gemini 3.1 Pro mengendalikan teks, imej, audio, video, dan kod dalam satu konteks. Dengan tetingkap input 1M token, ia boleh memproses keseluruhan pangkalan kod atau dokumen penyelidikan panjang dalam satu laluan.

RE-Bench: Prestasi Penyelidikan ML

Pada RE-Bench, yang menilai keupayaan penyelidikan dan pembangunan ML, Gemini 3.1 Pro mencatat 1.27 (dinormalisasi manusia), naik daripada 1.04 Gemini 3 Pro. Model menyelesaikan tugas pengoptimuman dalam 47 saat berbanding rujukan manusia 94 saat.

Ketersediaan Gemini 3.1 Pro

Gemini 3.1 Pro tersedia dalam aplikasi Gemini, Google Cloud Vertex AI, Google AI Studio, dan Gemini API. Harga berbeza mengikut platform. Model ini dalam pratonton; ketersediaan umum dijangka akan menyusul.

Soalan Lazim

Apakah Gemini 3.1 Pro?
Gemini 3.1 Pro ialah naik taraf yang dioptimumkan untuk penaakulan bagi siri Gemini 3 oleh Google DeepMind, dikeluarkan pada 19 Februari 2026. Ia mencatat 77.1% pada ARC-AGI-2, lebih dua kali ganda prestasi penaakulan Gemini 3 Pro. Model ini menyokong konteks input 1M token dan output 64K token, serta memperkenalkan parameter thinking_level yang membolehkan pembangun mengawal kedalaman penaakulan model sebelum memberi respons.
Bagaimanakah Gemini 3.1 Pro berbanding dengan Claude Opus 4.6?
Gemini 3.1 Pro dan Claude Opus 4.6 menyasarkan kekuatan berbeza. Gemini 3.1 Pro mendahului dalam ARC-AGI-2 (77.1%) dan RE-Bench untuk R&D ML, manakala Claude Opus 4.6 memegang kedudukan teratas pada Terminal-Bench 2.0 untuk pengekodan agentik dan Humanity's Last Exam untuk penaakulan multidisiplin. Kedua-duanya menawarkan tetingkap konteks 1M token. Pilihan bergantung pada beban kerja: Gemini cemerlang dalam tugas penaakulan novel, Claude dalam kerja pengekodan berterusan.
Apakah parameter thinking_level dalam Gemini 3.1 Pro?
Parameter thinking_level membolehkan pembangun mengawal kedalaman maksimum penaakulan yang digunakan model sebelum menghasilkan respons. Pemikiran rendah lebih pantas dan murah untuk tugas mudah. Pemikiran tinggi memperuntukkan lebih banyak masa pengiraan untuk masalah penaakulan kompleks. Ini memberi pembangun kawalan eksplisit terhadap pertukaran kos-kelajuan-kualiti, serupa dengan kawalan usaha dalam Claude Opus 4.6.
Apakah titik akhir alat tersuai dalam Gemini 3.1 Pro?
Gemini 3.1 Pro termasuk titik akhir API berasingan dipanggil gemini-3.1-pro-preview-customtools, dioptimumkan untuk mengutamakan alat pembangun tersuai. Apabila membina aplikasi agentik dengan campuran arahan bash dan alat tersuai, titik akhir ini memastikan model memilih dan memanggil alat yang betul dengan tepat. Ini terutama berguna untuk pembangun membina agen AI yang perlu berinteraksi dengan sistem dan API luaran.

Kekal Dikemas Kini

Dapatkan berita AI terkini dalam peti masuk anda.

Kongsi