Code Velocity
מודלי בינה מלאכותית

Gemini 3.1 Pro: המודל של Google עם חשיבה בראש סדר העדיפויות

·6 דקות קריאה·Google, Google DeepMind·מקור מקורי
שתף
השוואת ביצועי Gemini 3.1 Pro המציגה ציוני ARC-AGI-2 ו-RE-Bench מול Gemini 3 Pro ומודלי חזית אחרים

תוצאות הבנצ'מרק של Gemini 3.1 Pro

Google DeepMind השיקה את Gemini 3.1 Pro ב-19 בפברואר 2026. המודל יותר מכפיל את ביצועי החשיבה של קודמו, ומשיג 77.1% ב-ARC-AGI-2 לעומת Gemini 3 Pro.

Gemini 3.1 Pro מכוון למשימות הדורשות חשיבה רב-שלבית: עיצוב אלגוריתמים, סינתזת נתונים בקנה מידה גדול, תהליכי עבודה אגנטיים ותכנות מורכב.

Gemini 3.1 Pro מול Claude Opus 4.6 מול GPT-5.2

בנצ'מרקGemini 3.1 ProClaude Opus 4.6GPT-5.2-Codex
ARC-AGI-277.1%
RE-Bench (מחקר ופיתוח ML)1.27
Terminal-Bench 2.0#164.0%
Humanity's Last Exam#1
הקשר (קלט)1M200K (1M בטא)400K
הקשר (פלט)64K128K128K

כל מודל מוביל בתחומים שונים. Gemini 3.1 Pro מוביל בבנצ'מרקי חשיבה חדשניים. Claude Opus 4.6 מוביל בתכנות אגנטי ובחשיבה רב-תחומית. GPT-5.2-Codex מציע ביצועי תכנות תחרותיים בתמחור נמוך יותר.

פיצ'רים מרכזיים למפתחים

עומק חשיבה מתכוונן

Gemini 3.1 Pro מציג פרמטר thinking_level השולט בעומק החשיבה. חשיבה נמוכה מהירה וזולה למשימות שגרתיות. חשיבה גבוהה מפעילה יותר חישוב לבעיות מורכבות.

זה דומה לבקרות המאמץ של Claude Opus 4.6, אם כי Gemini חושף את ההגדרה כפרמטר API מפורש במקום התנהגות מודל אדפטיבית.

נקודת קצה לכלים מותאמים אישית

נקודת קצה נפרדת, gemini-3.1-pro-preview-customtools, מותאמת ליישומים אגנטיים המשלבים פקודות shell עם כלים מותאמים אישית. היא מתעדפת בחירת כלים נכונה והפעלתם, ומפחיתה שגיאות כשסוכנים מקיימים אינטראקציה עם מערכות חיצוניות. זה רלוונטי למפתחים הבונים סוכנים דומים ל-GitHub Agentic Workflows, שבהם דיוק בחירת הכלים משפיע ישירות על אמינות האוטומציה.

קלט URL של YouTube

מפתחים יכולים להעביר כתובות URL של YouTube ישירות לפרומפטים. המודל מנתח תוכן וידאו, ומאפשר תהליכי עבודה המשלבים הבנת וידאו עם יצירת קוד או תיעוד.

עיבוד מולטימודלי

Gemini 3.1 Pro מעבד טקסט, תמונות, אודיו, וידאו וקוד בהקשר יחיד. עם חלון קלט של 1M טוקנים, הוא יכול לעבד בסיסי קוד שלמים או מסמכי מחקר ארוכים במעבר אחד.

RE-Bench: ביצועי מחקר ML

ב-RE-Bench, שמעריך יכולות מחקר ופיתוח ML, Gemini 3.1 Pro משיג 1.27 (מנורמל לאדם), עלייה מ-1.04 של Gemini 3 Pro. המודל השלים משימות אופטימיזציה ב-47 שניות לעומת 94 השניות של הייחוס האנושי.

זמינות Gemini 3.1 Pro

Gemini 3.1 Pro זמין באפליקציית Gemini, ב-Google Cloud Vertex AI, ב-Google AI Studio וב-Gemini API. התמחור משתנה בהתאם לפלטפורמה. המודל בתצוגה מקדימה; זמינות כללית צפויה בהמשך.

שאלות נפוצות

מהו Gemini 3.1 Pro?
Gemini 3.1 Pro הוא השדרוג המותאם לחשיבה של סדרת Gemini 3 מבית Google DeepMind, שהושק ב-19 בפברואר 2026. הוא משיג 77.1% ב-ARC-AGI-2, יותר מכפול מביצועי החשיבה של Gemini 3 Pro. המודל תומך בהקשר קלט של 1M טוקנים ו-64K טוקני פלט, ומציג פרמטר thinking_level שמאפשר למפתחים לשלוט בעומק החשיבה של המודל לפני מתן תשובה.
כיצד Gemini 3.1 Pro משתווה ל-Claude Opus 4.6?
Gemini 3.1 Pro ו-Claude Opus 4.6 מכוונים לחוזקות שונות. Gemini 3.1 Pro מוביל ב-ARC-AGI-2 (77.1%) וב-RE-Bench למחקר ופיתוח ML, בעוד Claude Opus 4.6 מחזיק במקום הראשון ב-Terminal-Bench 2.0 לתכנות אגנטי וב-Humanity's Last Exam לחשיבה רב-תחומית. שניהם מציעים חלונות הקשר של 1M טוקנים. הבחירה תלויה בעומס העבודה: Gemini מצטיין במשימות חשיבה חדשניות, Claude בעבודת תכנות מתמשכת.
מהו פרמטר thinking_level ב-Gemini 3.1 Pro?
פרמטר thinking_level מאפשר למפתחים לשלוט בעומק החשיבה המרבי שהמודל מפעיל לפני יצירת תשובה. חשיבה נמוכה מהירה וזולה יותר למשימות פשוטות. חשיבה גבוהה מקצה יותר זמן חישוב לבעיות חשיבה מורכבות. זה נותן למפתחים שליטה מפורשת על פשרת העלות-מהירות-איכות, בדומה לבקרות המאמץ ב-Claude Opus 4.6.
מהי נקודת הקצה לכלים מותאמים אישית ב-Gemini 3.1 Pro?
Gemini 3.1 Pro כולל נקודת קצה נפרדת ב-API בשם gemini-3.1-pro-preview-customtools, שמותאמת לתעדוף כלי מפתחים מותאמים אישית. בבניית יישומים אגנטיים עם שילוב של פקודות shell וכלים מותאמים, נקודת קצה זו מבטיחה שהמודל בוחר ומפעיל את הכלי הנכון. זה שימושי במיוחד למפתחים הבונים סוכני בינה מלאכותית שצריכים לקיים אינטראקציה עם מערכות וממשקי API חיצוניים.

הישארו מעודכנים

קבלו את חדשות ה-AI האחרונות לתיבת הדוא״ל.

שתף