Keputusan Penanda Aras Gemini 3.1 Pro
Google DeepMind mengeluarkan Gemini 3.1 Pro pada 19 Februari 2026. Model ini lebih dua kali ganda prestasi penaakulan pendahulunya, mencatat 77.1% pada ARC-AGI-2 berbanding Gemini 3 Pro.
Gemini 3.1 Pro menyasarkan tugas yang memerlukan penaakulan berbilang langkah: reka bentuk algoritma, sintesis data berskala besar, aliran kerja agentik, dan pengekodan kompleks.
Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2
| Penanda Aras | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2-Codex |
|---|---|---|---|
| ARC-AGI-2 | 77.1% | — | — |
| RE-Bench (ML R&D) | 1.27 | — | — |
| Terminal-Bench 2.0 | — | #1 | 64.0% |
| Humanity's Last Exam | — | #1 | — |
| Konteks (input) | 1M | 200K (1M beta) | 400K |
| Konteks (output) | 64K | 128K | 128K |
Setiap model mendahului dalam bidang berbeza. Gemini 3.1 Pro mendahului penanda aras penaakulan novel. Claude Opus 4.6 mendahului pengekodan agentik dan penaakulan multidisiplin. GPT-5.2-Codex menawarkan prestasi pengekodan kompetitif pada harga lebih rendah.
Ciri Utama untuk Pembangun
Kedalaman Pemikiran Boleh Dikonfigurasi
Gemini 3.1 Pro memperkenalkan parameter thinking_level yang mengawal kedalaman penaakulan. Pemikiran rendah pantas dan murah untuk tugas rutin. Pemikiran tinggi menggunakan lebih banyak pengiraan untuk masalah kompleks.
Ini serupa dengan kawalan usaha Claude Opus 4.6, walaupun Gemini mendedahkan tetapan ini sebagai parameter API eksplisit dan bukannya tingkah laku model adaptif.
Titik Akhir Alat Tersuai
Titik akhir berasingan, gemini-3.1-pro-preview-customtools, dioptimumkan untuk aplikasi agentik menggabungkan arahan shell dengan alat tersuai. Ia mengutamakan pemilihan dan panggilan alat yang betul, mengurangkan ralat apabila agen berinteraksi dengan sistem luaran. Ini relevan untuk pembangun membina agen serupa dengan GitHub Agentic Workflows, di mana ketepatan pemilihan alat memberi kesan langsung kepada kebolehpercayaan automasi.
Input URL YouTube
Pembangun boleh menghantar URL YouTube terus ke dalam prompt. Model menganalisis kandungan video, membolehkan aliran kerja menggabungkan pemahaman video dengan penjanaan kod atau dokumentasi.
Pemprosesan Multimodal
Gemini 3.1 Pro mengendalikan teks, imej, audio, video, dan kod dalam satu konteks. Dengan tetingkap input 1M token, ia boleh memproses keseluruhan pangkalan kod atau dokumen penyelidikan panjang dalam satu laluan.
RE-Bench: Prestasi Penyelidikan ML
Pada RE-Bench, yang menilai keupayaan penyelidikan dan pembangunan ML, Gemini 3.1 Pro mencatat 1.27 (dinormalisasi manusia), naik daripada 1.04 Gemini 3 Pro. Model menyelesaikan tugas pengoptimuman dalam 47 saat berbanding rujukan manusia 94 saat.
Ketersediaan Gemini 3.1 Pro
Gemini 3.1 Pro tersedia dalam aplikasi Gemini, Google Cloud Vertex AI, Google AI Studio, dan Gemini API. Harga berbeza mengikut platform. Model ini dalam pratonton; ketersediaan umum dijangka akan menyusul.
Soalan Lazim
Apakah Gemini 3.1 Pro?
Bagaimanakah Gemini 3.1 Pro berbanding dengan Claude Opus 4.6?
Apakah parameter thinking_level dalam Gemini 3.1 Pro?
Apakah titik akhir alat tersuai dalam Gemini 3.1 Pro?
Kekal Dikemas Kini
Dapatkan berita AI terkini dalam peti masuk anda.
