Wyniki benchmarków Gemini 3.1 Pro
Google DeepMind wydał Gemini 3.1 Pro 19 lutego 2026 roku. Model ponad dwukrotnie przewyższa wydajność rozumowania swojego poprzednika, uzyskując 77.1% na ARC-AGI-2 w porównaniu z Gemini 3 Pro.
Gemini 3.1 Pro jest ukierunkowany na zadania wymagające wieloetapowego rozumowania: projektowanie algorytmów, syntezę danych na dużą skalę, agentowe przepływy pracy i złożone programowanie.
Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2
| Benchmark | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2-Codex |
|---|---|---|---|
| ARC-AGI-2 | 77.1% | — | — |
| RE-Bench (ML R&D) | 1.27 | — | — |
| Terminal-Bench 2.0 | — | #1 | 64.0% |
| Humanity's Last Exam | — | #1 | — |
| Kontekst (wejście) | 1M | 200K (1M beta) | 400K |
| Kontekst (wyjście) | 64K | 128K | 128K |
Każdy model przoduje w innym obszarze. Gemini 3.1 Pro prowadzi w benchmarkach nowatorskiego rozumowania. Claude Opus 4.6 dominuje w kodowaniu agentowym i rozumowaniu interdyscyplinarnym. GPT-5.2-Codex oferuje konkurencyjną wydajność programistyczną w niższej cenie.
Kluczowe funkcje dla deweloperów
Konfigurowalna głębokość myślenia
Gemini 3.1 Pro wprowadza parametr thinking_level kontrolujący głębokość rozumowania. Niski poziom myślenia jest szybki i ekonomiczny dla rutynowych zadań. Wysoki poziom przydziela więcej mocy obliczeniowej do złożonych problemów.
Jest to podobne do kontrolek effort w Claude Opus 4.6, choć Gemini udostępnia ustawienie jako jawny parametr API, a nie adaptacyjne zachowanie modelu.
Endpoint narzędzi niestandardowych
Oddzielny endpoint gemini-3.1-pro-preview-customtools jest zoptymalizowany pod kątem aplikacji agentowych łączących komendy shell z niestandardowymi narzędziami. Priorytetyzuje prawidłowy wybór i wywołanie narzędzi, redukując błędy przy interakcji agentów z systemami zewnętrznymi. Jest to istotne dla deweloperów budujących agentów podobnych do GitHub Agentic Workflows, gdzie dokładność wyboru narzędzi bezpośrednio wpływa na niezawodność automatyzacji.
Wejście URL YouTube
Deweloperzy mogą przekazywać adresy URL YouTube bezpośrednio w promptach. Model analizuje treść wideo, umożliwiając przepływy pracy łączące rozumienie wideo z generowaniem kodu lub dokumentacji.
Przetwarzanie multimodalne
Gemini 3.1 Pro obsługuje tekst, obrazy, dźwięk, wideo i kod w jednym kontekście. Dzięki oknu wejściowemu o wielkości 1M tokenów może przetworzyć całe bazy kodu lub długie dokumenty badawcze w jednym przebiegu.
RE-Bench: wydajność w badaniach ML
Na RE-Bench, oceniającym możliwości badań i rozwoju ML, Gemini 3.1 Pro uzyskuje 1.27 (normalizowane względem człowieka) w porównaniu z 1.04 u Gemini 3 Pro. Model ukończył zadania optymalizacyjne w 47 sekund wobec 94-sekundowego odniesienia ludzkiego.
Dostępność Gemini 3.1 Pro
Gemini 3.1 Pro jest dostępny w aplikacji Gemini, Google Cloud Vertex AI, Google AI Studio i API Gemini. Ceny różnią się w zależności od platformy. Model jest w wersji podglądowej; ogólna dostępność jest spodziewana wkrótce.
Źródło oryginalne
https://blog.google/technology/google-deepmind/gemini-3-1-pro/Często zadawane pytania
Czym jest Gemini 3.1 Pro?
Jak Gemini 3.1 Pro wypada w porównaniu z Claude Opus 4.6?
Czym jest parametr thinking_level w Gemini 3.1 Pro?
Czym jest endpoint narzędzi niestandardowych w Gemini 3.1 Pro?
Bądź na bieżąco
Otrzymuj najnowsze wiadomości o AI na swoją skrzynkę.
