ผลลัพธ์ Benchmark ของ Gemini 3.1 Pro
Google DeepMind เปิดตัว Gemini 3.1 Pro เมื่อวันที่ 19 กุมภาพันธ์ 2026 โมเดลนี้เพิ่มประสิทธิภาพการใช้เหตุผลมากกว่าสองเท่าของรุ่นก่อน ทำคะแนน 77.1% บน ARC-AGI-2 เทียบกับ Gemini 3 Pro
Gemini 3.1 Pro มุ่งเป้าไปที่งานที่ต้องใช้เหตุผลหลายขั้นตอน: การออกแบบอัลกอริทึม การสังเคราะห์ข้อมูลขนาดใหญ่ เวิร์กโฟลว์แบบเอเจนต์ และการเขียนโค้ดที่ซับซ้อน
Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2
| Benchmark | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2-Codex |
|---|---|---|---|
| ARC-AGI-2 | 77.1% | — | — |
| RE-Bench (ML R&D) | 1.27 | — | — |
| Terminal-Bench 2.0 | — | #1 | 64.0% |
| Humanity's Last Exam | — | #1 | — |
| บริบท (อินพุต) | 1M | 200K (1M เบต้า) | 400K |
| บริบท (เอาต์พุต) | 64K | 128K | 128K |
โมเดลแต่ละตัวเป็นผู้นำในด้านที่ต่างกัน Gemini 3.1 Pro นำใน benchmark การใช้เหตุผลใหม่ Claude Opus 4.6 นำด้านการเขียนโค้ดแบบเอเจนต์และการใช้เหตุผลสหสาขา GPT-5.2-Codex มีประสิทธิภาพการเขียนโค้ดที่แข่งขันได้ในราคาที่ถูกกว่า
ฟีเจอร์สำคัญสำหรับนักพัฒนา
ระดับความลึกการคิดที่ปรับได้
Gemini 3.1 Pro เปิดตัวพารามิเตอร์ thinking_level ที่ควบคุมระดับความลึกในการใช้เหตุผล thinking ระดับต่ำเร็วและประหยัดสำหรับงานปกติ thinking ระดับสูงใช้การคำนวณมากขึ้นสำหรับปัญหาที่ซับซ้อน
คล้ายกับการควบคุมระดับความพยายามของ Claude Opus 4.6 แม้ว่า Gemini จะเปิดเผยการตั้งค่าเป็นพารามิเตอร์ API ที่ชัดเจนมากกว่าพฤติกรรมปรับตัวของโมเดล
Endpoint เครื่องมือแบบกำหนดเอง
Endpoint แยก gemini-3.1-pro-preview-customtools ปรับแต่งสำหรับแอปพลิเคชันเอเจนต์ที่ผสมคำสั่ง shell กับเครื่องมือแบบกำหนดเอง ให้ความสำคัญกับการเลือกและเรียกใช้เครื่องมือที่ถูกต้อง ลดข้อผิดพลาดเมื่อเอเจนต์โต้ตอบกับระบบภายนอก สำคัญสำหรับนักพัฒนาที่สร้างเอเจนต์คล้าย GitHub Agentic Workflows ที่ความแม่นยำในการเลือกเครื่องมือส่งผลโดยตรงต่อความน่าเชื่อถือของการทำงานอัตโนมัติ
อินพุต URL จาก YouTube
นักพัฒนาสามารถส่ง URL YouTube โดยตรงในพรอมต์ โมเดลวิเคราะห์เนื้อหาวิดีโอ ช่วยให้สร้างเวิร์กโฟลว์ที่ผสมความเข้าใจวิดีโอกับการสร้างโค้ดหรือเอกสาร
การประมวลผลหลายรูปแบบ
Gemini 3.1 Pro รองรับข้อความ รูปภาพ เสียง วิดีโอ และโค้ดในบริบทเดียว ด้วยหน้าต่างอินพุต 1M โทเค็น สามารถประมวลผล codebase ทั้งหมดหรือเอกสารวิจัยยาวในรอบเดียว
RE-Bench: ประสิทธิภาพการวิจัย ML
บน RE-Bench ซึ่งประเมินความสามารถด้านการวิจัยและพัฒนา ML Gemini 3.1 Pro ทำคะแนน 1.27 (ปรับมาตรฐานตามมนุษย์) เพิ่มจาก 1.04 ของ Gemini 3 Pro โมเดลทำงานปรับปรุงเสร็จใน 47 วินาที เทียบกับ 94 วินาทีของมาตรฐานมนุษย์
ความพร้อมใช้งานของ Gemini 3.1 Pro
Gemini 3.1 Pro พร้อมใช้งานในแอป Gemini, Google Cloud Vertex AI, Google AI Studio และ Gemini API ราคาแตกต่างตามแพลตฟอร์ม โมเดลอยู่ในช่วง preview คาดว่าจะเปิดให้ใช้ทั่วไปในเร็ว ๆ นี้
คำถามที่พบบ่อย
Gemini 3.1 Pro คืออะไร?
Gemini 3.1 Pro เทียบกับ Claude Opus 4.6 อย่างไร?
พารามิเตอร์ thinking_level ใน Gemini 3.1 Pro คืออะไร?
endpoint เครื่องมือแบบกำหนดเองใน Gemini 3.1 Pro คืออะไร?
อัปเดตข่าวสาร
รับข่าว AI ล่าสุดในกล่องจดหมายของคุณ
