Gemini 3.1 Pro Benchmark-Ergebnisse
Google DeepMind hat Gemini 3.1 Pro am 19. Februar 2026 veröffentlicht. Das Modell verdoppelt die Reasoning-Leistung seines Vorgängers und erzielt 77.1% auf ARC-AGI-2 gegenüber Gemini 3 Pro.
Gemini 3.1 Pro zielt auf Aufgaben ab, die mehrstufiges Reasoning erfordern: Algorithmendesign, großskalige Datensynthese, agentische Workflows und komplexes Programmieren.
Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2
| Benchmark | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2-Codex |
|---|---|---|---|
| ARC-AGI-2 | 77.1% | — | — |
| RE-Bench (ML-F&E) | 1.27 | — | — |
| Terminal-Bench 2.0 | — | #1 | 64.0% |
| Humanity's Last Exam | — | #1 | — |
| Kontext (Eingabe) | 1M | 200K (1M Beta) | 400K |
| Kontext (Ausgabe) | 64K | 128K | 128K |
Jedes Modell führt in unterschiedlichen Bereichen. Gemini 3.1 Pro liegt bei neuartigen Reasoning-Benchmarks vorn. Claude Opus 4.6 führt bei agentischem Coding und multidisziplinärem Reasoning. GPT-5.2-Codex bietet wettbewerbsfähige Coding-Leistung zu niedrigerem Preis.
Schlüsselfunktionen für Entwickler
Konfigurierbare Denktiefe
Gemini 3.1 Pro führt einen thinking_level-Parameter zur Steuerung der Reasoning-Tiefe ein. Niedriges Denken ist schnell und kostengünstig für Routineaufgaben. Hohes Denken wendet mehr Rechenkapazität auf komplexe Probleme an.
Dies ähnelt den Effort-Kontrollen von Claude Opus 4.6, wobei Gemini die Einstellung als expliziten API-Parameter bereitstellt statt als adaptives Modellverhalten.
Custom-Tools-Endpoint
Ein separater Endpoint, gemini-3.1-pro-preview-customtools, ist für agentische Anwendungen optimiert, die Shell-Befehle mit benutzerdefinierten Tools kombinieren. Er priorisiert die korrekte Tool-Auswahl und -Ausführung und reduziert Fehler bei der Interaktion von Agenten mit externen Systemen. Dies ist relevant für Entwickler, die Agenten ähnlich den GitHub Agentic Workflows bauen, bei denen die Genauigkeit der Tool-Auswahl die Zuverlässigkeit der Automatisierung direkt beeinflusst.
YouTube-URL-Eingabe
Entwickler können YouTube-URLs direkt in Prompts übergeben. Das Modell analysiert Videoinhalte und ermöglicht Workflows, die Videoverständnis mit Codegenerierung oder Dokumentation kombinieren.
Multimodale Verarbeitung
Gemini 3.1 Pro verarbeitet Text, Bilder, Audio, Video und Code in einem einzigen Kontext. Mit einem 1M-Token-Eingabefenster kann es ganze Codebasen oder lange Forschungsdokumente in einem Durchgang verarbeiten.
RE-Bench: ML-Forschungsleistung
Bei RE-Bench, das ML-Forschungs- und Entwicklungsfähigkeiten bewertet, erzielt Gemini 3.1 Pro 1.27 (human-normalisiert) gegenüber 1.04 bei Gemini 3 Pro. Das Modell absolvierte Optimierungsaufgaben in 47 Sekunden gegenüber den 94 Sekunden der menschlichen Referenz.
Gemini 3.1 Pro Verfügbarkeit
Gemini 3.1 Pro ist in der Gemini-App, Google Cloud Vertex AI, Google AI Studio und der Gemini API verfügbar. Die Preise variieren je nach Plattform. Das Modell befindet sich in der Preview; die allgemeine Verfügbarkeit wird erwartet.
Häufig gestellte Fragen
Was ist Gemini 3.1 Pro?
Wie schneidet Gemini 3.1 Pro im Vergleich zu Claude Opus 4.6 ab?
Was ist der thinking_level-Parameter in Gemini 3.1 Pro?
Was ist der Custom-Tools-Endpoint in Gemini 3.1 Pro?
Bleiben Sie informiert
Erhalten Sie die neuesten KI-Nachrichten per E-Mail.
