Code Velocity
Modele AI

Gemini 3.1 Pro: model Google skoncentrowany na rozumowaniu

·6 min czytania·Google, Google DeepMind·Źródło oryginalne
Udostępnij
Porównanie benchmarków Gemini 3.1 Pro z wynikami ARC-AGI-2 i RE-Bench w odniesieniu do Gemini 3 Pro i innych modeli frontierowych

Wyniki benchmarków Gemini 3.1 Pro

Google DeepMind wydał Gemini 3.1 Pro 19 lutego 2026 roku. Model ponad dwukrotnie przewyższa wydajność rozumowania swojego poprzednika, uzyskując 77.1% na ARC-AGI-2 w porównaniu z Gemini 3 Pro.

Gemini 3.1 Pro jest ukierunkowany na zadania wymagające wieloetapowego rozumowania: projektowanie algorytmów, syntezę danych na dużą skalę, agentowe przepływy pracy i złożone programowanie.

Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2

BenchmarkGemini 3.1 ProClaude Opus 4.6GPT-5.2-Codex
ARC-AGI-277.1%
RE-Bench (ML R&D)1.27
Terminal-Bench 2.0#164.0%
Humanity's Last Exam#1
Kontekst (wejście)1M200K (1M beta)400K
Kontekst (wyjście)64K128K128K

Każdy model przoduje w innym obszarze. Gemini 3.1 Pro prowadzi w benchmarkach nowatorskiego rozumowania. Claude Opus 4.6 dominuje w kodowaniu agentowym i rozumowaniu interdyscyplinarnym. GPT-5.2-Codex oferuje konkurencyjną wydajność programistyczną w niższej cenie.

Kluczowe funkcje dla deweloperów

Konfigurowalna głębokość myślenia

Gemini 3.1 Pro wprowadza parametr thinking_level kontrolujący głębokość rozumowania. Niski poziom myślenia jest szybki i ekonomiczny dla rutynowych zadań. Wysoki poziom przydziela więcej mocy obliczeniowej do złożonych problemów.

Jest to podobne do kontrolek effort w Claude Opus 4.6, choć Gemini udostępnia ustawienie jako jawny parametr API, a nie adaptacyjne zachowanie modelu.

Endpoint narzędzi niestandardowych

Oddzielny endpoint gemini-3.1-pro-preview-customtools jest zoptymalizowany pod kątem aplikacji agentowych łączących komendy shell z niestandardowymi narzędziami. Priorytetyzuje prawidłowy wybór i wywołanie narzędzi, redukując błędy przy interakcji agentów z systemami zewnętrznymi. Jest to istotne dla deweloperów budujących agentów podobnych do GitHub Agentic Workflows, gdzie dokładność wyboru narzędzi bezpośrednio wpływa na niezawodność automatyzacji.

Wejście URL YouTube

Deweloperzy mogą przekazywać adresy URL YouTube bezpośrednio w promptach. Model analizuje treść wideo, umożliwiając przepływy pracy łączące rozumienie wideo z generowaniem kodu lub dokumentacji.

Przetwarzanie multimodalne

Gemini 3.1 Pro obsługuje tekst, obrazy, dźwięk, wideo i kod w jednym kontekście. Dzięki oknu wejściowemu o wielkości 1M tokenów może przetworzyć całe bazy kodu lub długie dokumenty badawcze w jednym przebiegu.

RE-Bench: wydajność w badaniach ML

Na RE-Bench, oceniającym możliwości badań i rozwoju ML, Gemini 3.1 Pro uzyskuje 1.27 (normalizowane względem człowieka) w porównaniu z 1.04 u Gemini 3 Pro. Model ukończył zadania optymalizacyjne w 47 sekund wobec 94-sekundowego odniesienia ludzkiego.

Dostępność Gemini 3.1 Pro

Gemini 3.1 Pro jest dostępny w aplikacji Gemini, Google Cloud Vertex AI, Google AI Studio i API Gemini. Ceny różnią się w zależności od platformy. Model jest w wersji podglądowej; ogólna dostępność jest spodziewana wkrótce.

Często zadawane pytania

Czym jest Gemini 3.1 Pro?
Gemini 3.1 Pro to zoptymalizowana pod kątem rozumowania aktualizacja serii Gemini 3 od Google DeepMind, wydana 19 lutego 2026 roku. Uzyskuje 77.1% na ARC-AGI-2, ponad dwukrotnie przewyższając wydajność rozumowania Gemini 3 Pro. Model obsługuje kontekst wejściowy o wielkości 1M tokenów i 64K tokenów wyjściowych, a także wprowadza parametr thinking_level, pozwalający deweloperom kontrolować głębokość rozumowania modelu przed udzieleniem odpowiedzi.
Jak Gemini 3.1 Pro wypada w porównaniu z Claude Opus 4.6?
Gemini 3.1 Pro i Claude Opus 4.6 dominują w różnych obszarach. Gemini 3.1 Pro prowadzi w ARC-AGI-2 (77.1%) i RE-Bench dla badań ML, natomiast Claude Opus 4.6 zajmuje pierwszą pozycję w Terminal-Bench 2.0 dla kodowania agentowego i Humanity's Last Exam dla rozumowania interdyscyplinarnego. Oba oferują okna kontekstowe o wielkości 1M tokenów. Wybór zależy od obciążenia: Gemini przoduje w nowatorskich zadaniach rozumowania, Claude w ciągłej pracy programistycznej.
Czym jest parametr thinking_level w Gemini 3.1 Pro?
Parametr thinking_level pozwala deweloperom kontrolować maksymalną głębokość rozumowania, jaką model stosuje przed wygenerowaniem odpowiedzi. Niski poziom myślenia jest szybszy i tańszy dla prostych zadań. Wysoki poziom przydziela więcej czasu obliczeniowego na złożone problemy rozumowania. Daje to deweloperom jawną kontrolę nad kompromisem między kosztem, szybkością i jakością, podobnie do kontrolek effort w Claude Opus 4.6.
Czym jest endpoint narzędzi niestandardowych w Gemini 3.1 Pro?
Gemini 3.1 Pro zawiera oddzielny endpoint API o nazwie gemini-3.1-pro-preview-customtools, zoptymalizowany pod kątem priorytetowego używania niestandardowych narzędzi deweloperskich. Przy budowie aplikacji agentowych łączących komendy bash z niestandardowymi narzędziami, ten endpoint zapewnia prawidłowy wybór i wywołanie odpowiedniego narzędzia. Jest to szczególnie przydatne dla deweloperów budujących agentów AI, którzy muszą komunikować się z zewnętrznymi systemami i API.

Bądź na bieżąco

Otrzymuj najnowsze wiadomości o AI na swoją skrzynkę.

Udostępnij