Hasil Benchmark Gemini 3.1 Pro
Google DeepMind merilis Gemini 3.1 Pro pada 19 Februari 2026. Model ini lebih dari dua kali lipat performa penalaran pendahulunya, meraih 77,1% di ARC-AGI-2 dibandingkan Gemini 3 Pro.
Gemini 3.1 Pro menargetkan tugas yang memerlukan penalaran multi-langkah: desain algoritma, sintesis data skala besar, alur kerja agentik, dan coding kompleks.
Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2
| Benchmark | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2-Codex |
|---|---|---|---|
| ARC-AGI-2 | 77,1% | — | — |
| RE-Bench (ML R&D) | 1,27 | — | — |
| Terminal-Bench 2.0 | — | #1 | 64,0% |
| Humanity's Last Exam | — | #1 | — |
| Konteks (input) | 1M | 200K (1M beta) | 400K |
| Konteks (output) | 64K | 128K | 128K |
Setiap model memimpin di area yang berbeda. Gemini 3.1 Pro memuncaki benchmark penalaran baru. Claude Opus 4.6 memimpin coding agentik dan penalaran multidisiplin. GPT-5.2-Codex menawarkan performa coding kompetitif dengan harga lebih rendah.
Fitur Utama untuk Developer
Kedalaman Berpikir yang Dapat Dikonfigurasi
Gemini 3.1 Pro memperkenalkan parameter thinking_level yang mengontrol kedalaman penalaran. Thinking rendah cepat dan murah untuk tugas rutin. Thinking tinggi menerapkan lebih banyak komputasi untuk masalah kompleks.
Ini mirip dengan kontrol upaya Claude Opus 4.6, meskipun Gemini mengekspos pengaturan sebagai parameter API eksplisit alih-alih perilaku model adaptif.
Endpoint Custom Tools
Endpoint terpisah, gemini-3.1-pro-preview-customtools, dioptimalkan untuk aplikasi agentik yang menggabungkan perintah shell dengan custom tools. Endpoint ini memprioritaskan pemilihan dan pemanggilan alat yang tepat, mengurangi kesalahan saat agen berinteraksi dengan sistem eksternal. Ini relevan bagi developer yang membangun agen serupa dengan GitHub Agentic Workflows, di mana akurasi pemilihan alat berdampak langsung pada keandalan otomasi.
Input URL YouTube
Developer dapat memasukkan URL YouTube langsung ke dalam prompt. Model menganalisis konten video, memungkinkan alur kerja yang menggabungkan pemahaman video dengan pembuatan kode atau dokumentasi.
Pemrosesan Multimodal
Gemini 3.1 Pro menangani teks, gambar, audio, video, dan kode dalam satu konteks. Dengan jendela input 1M token, model dapat memproses seluruh codebase atau dokumen riset panjang dalam satu permintaan.
RE-Bench: Performa Riset ML
Di RE-Bench, yang mengevaluasi kemampuan riset dan pengembangan ML, Gemini 3.1 Pro meraih skor 1,27 (dinormalisasi terhadap manusia), naik dari 1,04 pada Gemini 3 Pro. Model ini menyelesaikan tugas optimasi dalam 47 detik dibandingkan referensi manusia 94 detik.
Ketersediaan Gemini 3.1 Pro
Gemini 3.1 Pro tersedia di aplikasi Gemini, Google Cloud Vertex AI, Google AI Studio, dan Gemini API. Harga bervariasi menurut platform. Model ini dalam preview; ketersediaan umum diharapkan menyusul.
Pertanyaan yang Sering Diajukan
Apa itu Gemini 3.1 Pro?
Bagaimana perbandingan Gemini 3.1 Pro dengan Claude Opus 4.6?
Apa itu parameter thinking_level di Gemini 3.1 Pro?
Apa itu endpoint custom tools di Gemini 3.1 Pro?
Tetap Update
Dapatkan berita AI terbaru di inbox Anda.
