Code Velocity
KI-Modelle

Gemini 3.1 Pro: Googles Reasoning-First-Modell

·6 Min. Lesezeit·Google, Google DeepMind·Originalquelle
Teilen
Gemini 3.1 Pro Benchmark-Vergleich mit ARC-AGI-2- und RE-Bench-Ergebnissen gegenüber Gemini 3 Pro und anderen Frontier-Modellen

Gemini 3.1 Pro Benchmark-Ergebnisse

Google DeepMind hat Gemini 3.1 Pro am 19. Februar 2026 veröffentlicht. Das Modell verdoppelt die Reasoning-Leistung seines Vorgängers und erzielt 77.1% auf ARC-AGI-2 gegenüber Gemini 3 Pro.

Gemini 3.1 Pro zielt auf Aufgaben ab, die mehrstufiges Reasoning erfordern: Algorithmendesign, großskalige Datensynthese, agentische Workflows und komplexes Programmieren.

Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2

BenchmarkGemini 3.1 ProClaude Opus 4.6GPT-5.2-Codex
ARC-AGI-277.1%
RE-Bench (ML-F&E)1.27
Terminal-Bench 2.0#164.0%
Humanity's Last Exam#1
Kontext (Eingabe)1M200K (1M Beta)400K
Kontext (Ausgabe)64K128K128K

Jedes Modell führt in unterschiedlichen Bereichen. Gemini 3.1 Pro liegt bei neuartigen Reasoning-Benchmarks vorn. Claude Opus 4.6 führt bei agentischem Coding und multidisziplinärem Reasoning. GPT-5.2-Codex bietet wettbewerbsfähige Coding-Leistung zu niedrigerem Preis.

Schlüsselfunktionen für Entwickler

Konfigurierbare Denktiefe

Gemini 3.1 Pro führt einen thinking_level-Parameter zur Steuerung der Reasoning-Tiefe ein. Niedriges Denken ist schnell und kostengünstig für Routineaufgaben. Hohes Denken wendet mehr Rechenkapazität auf komplexe Probleme an.

Dies ähnelt den Effort-Kontrollen von Claude Opus 4.6, wobei Gemini die Einstellung als expliziten API-Parameter bereitstellt statt als adaptives Modellverhalten.

Custom-Tools-Endpoint

Ein separater Endpoint, gemini-3.1-pro-preview-customtools, ist für agentische Anwendungen optimiert, die Shell-Befehle mit benutzerdefinierten Tools kombinieren. Er priorisiert die korrekte Tool-Auswahl und -Ausführung und reduziert Fehler bei der Interaktion von Agenten mit externen Systemen. Dies ist relevant für Entwickler, die Agenten ähnlich den GitHub Agentic Workflows bauen, bei denen die Genauigkeit der Tool-Auswahl die Zuverlässigkeit der Automatisierung direkt beeinflusst.

YouTube-URL-Eingabe

Entwickler können YouTube-URLs direkt in Prompts übergeben. Das Modell analysiert Videoinhalte und ermöglicht Workflows, die Videoverständnis mit Codegenerierung oder Dokumentation kombinieren.

Multimodale Verarbeitung

Gemini 3.1 Pro verarbeitet Text, Bilder, Audio, Video und Code in einem einzigen Kontext. Mit einem 1M-Token-Eingabefenster kann es ganze Codebasen oder lange Forschungsdokumente in einem Durchgang verarbeiten.

RE-Bench: ML-Forschungsleistung

Bei RE-Bench, das ML-Forschungs- und Entwicklungsfähigkeiten bewertet, erzielt Gemini 3.1 Pro 1.27 (human-normalisiert) gegenüber 1.04 bei Gemini 3 Pro. Das Modell absolvierte Optimierungsaufgaben in 47 Sekunden gegenüber den 94 Sekunden der menschlichen Referenz.

Gemini 3.1 Pro Verfügbarkeit

Gemini 3.1 Pro ist in der Gemini-App, Google Cloud Vertex AI, Google AI Studio und der Gemini API verfügbar. Die Preise variieren je nach Plattform. Das Modell befindet sich in der Preview; die allgemeine Verfügbarkeit wird erwartet.

Häufig gestellte Fragen

Was ist Gemini 3.1 Pro?
Gemini 3.1 Pro ist Google DeepMinds reasoning-optimiertes Upgrade der Gemini-3-Serie, veröffentlicht am 19. Februar 2026. Es erzielt 77.1% auf ARC-AGI-2 und verdoppelt damit die Reasoning-Leistung von Gemini 3 Pro. Das Modell unterstützt ein 1M-Token-Eingabekontextfenster und 64K Ausgabe-Token und führt einen thinking_level-Parameter ein, mit dem Entwickler steuern können, wie tiefgehend das Modell vor der Antwort denkt.
Wie schneidet Gemini 3.1 Pro im Vergleich zu Claude Opus 4.6 ab?
Gemini 3.1 Pro und Claude Opus 4.6 haben unterschiedliche Stärken. Gemini 3.1 Pro führt bei ARC-AGI-2 (77.1%) und RE-Bench für ML-Forschung und -Entwicklung, während Claude Opus 4.6 die Spitzenposition bei Terminal-Bench 2.0 für agentisches Coding und Humanity's Last Exam für multidisziplinäres Reasoning hält. Beide bieten 1M-Token-Kontextfenster. Die Wahl hängt vom Workload ab: Gemini glänzt bei neuartigen Reasoning-Aufgaben, Claude bei ausdauernder Programmierarbeit.
Was ist der thinking_level-Parameter in Gemini 3.1 Pro?
Der thinking_level-Parameter ermöglicht Entwicklern, die maximale Denktiefe zu steuern, die das Modell vor der Antwortgenerierung anwendet. Niedriges Denken ist schneller und günstiger für einfache Aufgaben. Hohes Denken weist komplexen Reasoning-Problemen mehr Rechenzeit zu. Dies gibt Entwicklern explizite Kontrolle über den Kosten-Geschwindigkeits-Qualitäts-Kompromiss, ähnlich den Effort-Kontrollen in Claude Opus 4.6.
Was ist der Custom-Tools-Endpoint in Gemini 3.1 Pro?
Gemini 3.1 Pro enthält einen separaten API-Endpoint namens gemini-3.1-pro-preview-customtools, der für die Priorisierung benutzerdefinierter Entwickler-Tools optimiert ist. Beim Bau agentischer Anwendungen mit einer Mischung aus Bash-Befehlen und benutzerdefinierten Tools stellt dieser Endpoint sicher, dass das Modell das richtige Tool korrekt auswählt und aufruft. Dies ist besonders nützlich für Entwickler, die KI-Agenten bauen, die mit externen Systemen und APIs interagieren müssen.

Bleiben Sie informiert

Erhalten Sie die neuesten KI-Nachrichten per E-Mail.

Teilen