نتایج معیار Gemini 3.1 Pro
Google DeepMind در ۱۹ فوریه ۲۰۲۶ Gemini 3.1 Pro را منتشر کرد. این مدل عملکرد استدلال نسل قبلی خود را بیش از دو برابر کرد و امتیاز ۷۷.۱٪ در ARC-AGI-2 در مقابل Gemini 3 Pro کسب کرد.
Gemini 3.1 Pro وظایفی را هدف قرار میدهد که نیاز به استدلال چندمرحلهای دارند: طراحی الگوریتم، ترکیب دادههای بزرگمقیاس، جریانهای کاری عاملمحور و کدنویسی پیچیده.
Gemini 3.1 Pro در مقابل Claude Opus 4.6 در مقابل GPT-5.2
| معیار | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2-Codex |
|---|---|---|---|
| ARC-AGI-2 | ۷۷.۱٪ | — | — |
| RE-Bench (تحقیق و توسعه ML) | ۱.۲۷ | — | — |
| Terminal-Bench 2.0 | — | #1 | ۶۴.۰٪ |
| Humanity's Last Exam | — | #1 | — |
| زمینه (ورودی) | 1M | 200K (1M بتا) | 400K |
| زمینه (خروجی) | 64K | 128K | 128K |
هر مدل در حوزههای مختلفی پیشتاز است. Gemini 3.1 Pro در معیارهای استدلال جدید برتر است. Claude Opus 4.6 در کدنویسی عاملمحور و استدلال بینرشتهای پیشتاز است. GPT-5.2-Codex عملکرد کدنویسی رقابتی را با قیمت پایینتر ارائه میدهد.
ویژگیهای کلیدی برای توسعهدهندگان
عمق تفکر قابل تنظیم
Gemini 3.1 Pro پارامتر thinking_level را برای کنترل عمق استدلال معرفی میکند. تفکر کم سریع و ارزان برای وظایف معمولی است. تفکر زیاد محاسبات بیشتری را برای مسائل پیچیده اعمال میکند.
این مشابه کنترلهای تلاش Claude Opus 4.6 است، هرچند Gemini تنظیم را به عنوان یک پارامتر API صریح و نه رفتار تطبیقی مدل ارائه میدهد.
Endpoint ابزار سفارشی
یک endpoint جداگانه، gemini-3.1-pro-preview-customtools، برای برنامههای عاملمحور که دستورات shell را با ابزارهای سفارشی ترکیب میکنند بهینه شده است. انتخاب و فراخوانی صحیح ابزار را در اولویت قرار میدهد و خطاها را هنگام تعامل عاملها با سیستمهای خارجی کاهش میدهد. این برای توسعهدهندگانی که عاملهایی مشابه GitHub Agentic Workflows میسازند مرتبط است، جایی که دقت انتخاب ابزار مستقیماً بر قابلیت اطمینان اتوماسیون تأثیر میگذارد.
ورودی URL یوتیوب
توسعهدهندگان میتوانند URLهای YouTube را مستقیماً در پرامپتها وارد کنند. مدل محتوای ویدیویی را تحلیل میکند و جریانهای کاری را ممکن میسازد که درک ویدیو را با تولید کد یا مستندات ترکیب میکنند.
پردازش چندوجهی
Gemini 3.1 Pro متن، تصاویر، صدا، ویدیو و کد را در یک زمینه واحد پردازش میکند. با پنجره ورودی ۱M توکن، میتواند کل کدبیسها یا اسناد تحقیقاتی طولانی را در یک بار پردازش کند.
RE-Bench: عملکرد تحقیقات ML
در RE-Bench که قابلیتهای تحقیق و توسعه ML را ارزیابی میکند، Gemini 3.1 Pro امتیاز ۱.۲۷ (نرمالشده انسانی) کسب کرد، افزایش از ۱.۰۴ Gemini 3 Pro. مدل وظایف بهینهسازی را در ۴۷ ثانیه در مقابل ۹۴ ثانیه مرجع انسانی تکمیل کرد.
دسترسی به Gemini 3.1 Pro
Gemini 3.1 Pro در اپلیکیشن Gemini، Google Cloud Vertex AI، Google AI Studio و Gemini API در دسترس است. قیمتگذاری بر اساس پلتفرم متفاوت است. مدل در حالت پیشنمایش است و انتظار میرود دسترسی عمومی به زودی ارائه شود.
سوالات متداول
Gemini 3.1 Pro چیست؟
Gemini 3.1 Pro چگونه با Claude Opus 4.6 مقایسه میشود؟
پارامتر thinking_level در Gemini 3.1 Pro چیست؟
endpoint ابزار سفارشی در Gemini 3.1 Pro چیست؟
بهروز بمانید
آخرین اخبار هوش مصنوعی را در ایمیل خود دریافت کنید.
