Code Velocity
Model AI

Gemini 3.1 Pro: Model Penalaran-Utama dari Google

·6 mnt baca·Google, Google DeepMind·Sumber asli
Bagikan
Perbandingan benchmark Gemini 3.1 Pro menampilkan skor ARC-AGI-2 dan RE-Bench versus Gemini 3 Pro dan model frontier lainnya

Hasil Benchmark Gemini 3.1 Pro

Google DeepMind merilis Gemini 3.1 Pro pada 19 Februari 2026. Model ini lebih dari dua kali lipat performa penalaran pendahulunya, meraih 77,1% di ARC-AGI-2 dibandingkan Gemini 3 Pro.

Gemini 3.1 Pro menargetkan tugas yang memerlukan penalaran multi-langkah: desain algoritma, sintesis data skala besar, alur kerja agentik, dan coding kompleks.

Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2

BenchmarkGemini 3.1 ProClaude Opus 4.6GPT-5.2-Codex
ARC-AGI-277,1%
RE-Bench (ML R&D)1,27
Terminal-Bench 2.0#164,0%
Humanity's Last Exam#1
Konteks (input)1M200K (1M beta)400K
Konteks (output)64K128K128K

Setiap model memimpin di area yang berbeda. Gemini 3.1 Pro memuncaki benchmark penalaran baru. Claude Opus 4.6 memimpin coding agentik dan penalaran multidisiplin. GPT-5.2-Codex menawarkan performa coding kompetitif dengan harga lebih rendah.

Fitur Utama untuk Developer

Kedalaman Berpikir yang Dapat Dikonfigurasi

Gemini 3.1 Pro memperkenalkan parameter thinking_level yang mengontrol kedalaman penalaran. Thinking rendah cepat dan murah untuk tugas rutin. Thinking tinggi menerapkan lebih banyak komputasi untuk masalah kompleks.

Ini mirip dengan kontrol upaya Claude Opus 4.6, meskipun Gemini mengekspos pengaturan sebagai parameter API eksplisit alih-alih perilaku model adaptif.

Endpoint Custom Tools

Endpoint terpisah, gemini-3.1-pro-preview-customtools, dioptimalkan untuk aplikasi agentik yang menggabungkan perintah shell dengan custom tools. Endpoint ini memprioritaskan pemilihan dan pemanggilan alat yang tepat, mengurangi kesalahan saat agen berinteraksi dengan sistem eksternal. Ini relevan bagi developer yang membangun agen serupa dengan GitHub Agentic Workflows, di mana akurasi pemilihan alat berdampak langsung pada keandalan otomasi.

Input URL YouTube

Developer dapat memasukkan URL YouTube langsung ke dalam prompt. Model menganalisis konten video, memungkinkan alur kerja yang menggabungkan pemahaman video dengan pembuatan kode atau dokumentasi.

Pemrosesan Multimodal

Gemini 3.1 Pro menangani teks, gambar, audio, video, dan kode dalam satu konteks. Dengan jendela input 1M token, model dapat memproses seluruh codebase atau dokumen riset panjang dalam satu permintaan.

RE-Bench: Performa Riset ML

Di RE-Bench, yang mengevaluasi kemampuan riset dan pengembangan ML, Gemini 3.1 Pro meraih skor 1,27 (dinormalisasi terhadap manusia), naik dari 1,04 pada Gemini 3 Pro. Model ini menyelesaikan tugas optimasi dalam 47 detik dibandingkan referensi manusia 94 detik.

Ketersediaan Gemini 3.1 Pro

Gemini 3.1 Pro tersedia di aplikasi Gemini, Google Cloud Vertex AI, Google AI Studio, dan Gemini API. Harga bervariasi menurut platform. Model ini dalam preview; ketersediaan umum diharapkan menyusul.

Pertanyaan yang Sering Diajukan

Apa itu Gemini 3.1 Pro?
Gemini 3.1 Pro adalah upgrade yang dioptimalkan untuk penalaran dari seri Gemini 3 oleh Google DeepMind, dirilis pada 19 Februari 2026. Model ini meraih 77,1% di ARC-AGI-2, lebih dari dua kali lipat performa penalaran Gemini 3 Pro. Model ini mendukung konteks input 1M token dan output 64K token, serta memperkenalkan parameter thinking_level yang memungkinkan developer mengontrol seberapa dalam model bernalar sebelum merespons.
Bagaimana perbandingan Gemini 3.1 Pro dengan Claude Opus 4.6?
Gemini 3.1 Pro dan Claude Opus 4.6 menargetkan kekuatan yang berbeda. Gemini 3.1 Pro memimpin di ARC-AGI-2 (77,1%) dan RE-Bench untuk riset ML, sementara Claude Opus 4.6 memegang posisi teratas di Terminal-Bench 2.0 untuk coding agentik dan Humanity's Last Exam untuk penalaran multidisiplin. Keduanya menawarkan jendela konteks 1M token. Pilihan tergantung pada jenis pekerjaan: Gemini unggul di tugas penalaran baru, Claude di pekerjaan coding berkelanjutan.
Apa itu parameter thinking_level di Gemini 3.1 Pro?
Parameter thinking_level memungkinkan developer mengontrol kedalaman penalaran maksimum yang diterapkan model sebelum menghasilkan respons. Thinking rendah lebih cepat dan murah untuk tugas sederhana. Thinking tinggi mengalokasikan lebih banyak waktu komputasi untuk masalah penalaran kompleks. Ini memberi developer kontrol eksplisit atas trade-off biaya-kecepatan-kualitas, mirip dengan kontrol upaya di Claude Opus 4.6.
Apa itu endpoint custom tools di Gemini 3.1 Pro?
Gemini 3.1 Pro menyertakan endpoint API terpisah bernama gemini-3.1-pro-preview-customtools, yang dioptimalkan untuk memprioritaskan custom tools developer. Saat membangun aplikasi agentik dengan campuran perintah bash dan custom tools, endpoint ini memastikan model memilih dan memanggil alat yang tepat. Ini sangat berguna bagi developer yang membangun agen AI yang perlu berinteraksi dengan sistem dan API eksternal.

Tetap Update

Dapatkan berita AI terbaru di inbox Anda.

Bagikan