Code Velocity
Mô hình AI

Gemini 3.1 Pro: Mô Hình Ưu Tiên Suy Luận Của Google

·6 phút đọc·Google, Google DeepMind·Nguồn gốc
Chia sẻ
So sánh benchmark Gemini 3.1 Pro hiển thị điểm ARC-AGI-2 và RE-Bench so với Gemini 3 Pro và các mô hình hàng đầu khác

Kết Quả Benchmark Gemini 3.1 Pro

Google DeepMind ra mắt Gemini 3.1 Pro vào ngày 19 tháng 2 năm 2026. Mô hình gấp hơn hai lần hiệu suất suy luận của phiên bản trước, đạt 77.1% trên ARC-AGI-2 so với Gemini 3 Pro.

Gemini 3.1 Pro nhắm vào các tác vụ yêu cầu suy luận nhiều bước: thiết kế thuật toán, tổng hợp dữ liệu quy mô lớn, quy trình agentic và coding phức tạp.

Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2

BenchmarkGemini 3.1 ProClaude Opus 4.6GPT-5.2-Codex
ARC-AGI-277.1%
RE-Bench (ML R&D)1.27
Terminal-Bench 2.0#164.0%
Humanity's Last Exam#1
Ngữ cảnh (đầu vào)1M200K (1M beta)400K
Ngữ cảnh (đầu ra)64K128K128K

Mỗi mô hình dẫn đầu ở các lĩnh vực khác nhau. Gemini 3.1 Pro đứng đầu các benchmark suy luận mới. Claude Opus 4.6 dẫn đầu coding agentic và suy luận đa lĩnh vực. GPT-5.2-Codex cung cấp hiệu suất coding cạnh tranh với giá thấp hơn.

Tính Năng Chính Cho Lập Trình Viên

Độ Sâu Suy Luận Tùy Chỉnh

Gemini 3.1 Pro giới thiệu tham số thinking_level kiểm soát độ sâu suy luận. Mức thinking thấp nhanh và rẻ cho tác vụ thông thường. Mức thinking cao áp dụng nhiều tính toán hơn cho vấn đề phức tạp.

Tương tự các điều khiển effort của Claude Opus 4.6, dù Gemini hiển thị cài đặt như tham số API rõ ràng thay vì hành vi thích ứng của mô hình.

Endpoint Custom Tools

Một endpoint riêng biệt, gemini-3.1-pro-preview-customtools, được tối ưu hóa cho ứng dụng agentic kết hợp lệnh shell với custom tools. Nó ưu tiên chọn và gọi tool chính xác, giảm lỗi khi agent tương tác với hệ thống bên ngoài. Điều này liên quan đến nhà phát triển xây dựng agent tương tự GitHub Agentic Workflows, nơi độ chính xác chọn tool ảnh hưởng trực tiếp đến độ tin cậy tự động hóa.

Đầu Vào URL YouTube

Nhà phát triển có thể truyền URL YouTube trực tiếp vào prompt. Mô hình phân tích nội dung video, cho phép quy trình kết hợp hiểu video với sinh mã nguồn hoặc tài liệu.

Xử Lý Đa Phương Thức

Gemini 3.1 Pro xử lý văn bản, hình ảnh, âm thanh, video và mã trong một ngữ cảnh duy nhất. Với cửa sổ đầu vào 1M token, nó có thể xử lý toàn bộ codebase hoặc tài liệu nghiên cứu dài trong một lần.

RE-Bench: Hiệu Suất Nghiên Cứu ML

Trên RE-Bench, đánh giá khả năng nghiên cứu và phát triển ML, Gemini 3.1 Pro đạt 1.27 (chuẩn hóa theo người), tăng từ 1.04 của Gemini 3 Pro. Mô hình hoàn thành tác vụ tối ưu hóa trong 47 giây so với 94 giây của tham chiếu con người.

Tình Trạng Khả Dụng Gemini 3.1 Pro

Gemini 3.1 Pro có sẵn trong ứng dụng Gemini, Google Cloud Vertex AI, Google AI Studio và Gemini API. Giá thay đổi theo nền tảng. Mô hình đang trong giai đoạn preview; phiên bản chính thức dự kiến sẽ ra mắt sau.

Câu hỏi thường gặp

Gemini 3.1 Pro là gì?
Gemini 3.1 Pro là bản nâng cấp tối ưu suy luận của Google DeepMind cho dòng Gemini 3, ra mắt ngày 19 tháng 2 năm 2026. Đạt 77.1% trên ARC-AGI-2, gấp hơn hai lần hiệu suất suy luận của Gemini 3 Pro. Mô hình hỗ trợ cửa sổ ngữ cảnh đầu vào 1M token và đầu ra 64K token, đồng thời giới thiệu tham số thinking_level cho phép nhà phát triển kiểm soát độ sâu suy luận trước khi phản hồi.
Gemini 3.1 Pro so với Claude Opus 4.6 như thế nào?
Gemini 3.1 Pro và Claude Opus 4.6 nhắm vào các thế mạnh khác nhau. Gemini 3.1 Pro dẫn đầu trên ARC-AGI-2 (77.1%) và RE-Bench cho ML R&D, trong khi Claude Opus 4.6 giữ vị trí hàng đầu trên Terminal-Bench 2.0 cho coding agentic và Humanity's Last Exam cho suy luận đa lĩnh vực. Cả hai đều có cửa sổ ngữ cảnh 1M token. Lựa chọn phụ thuộc vào khối lượng công việc: Gemini xuất sắc trong các tác vụ suy luận mới lạ, Claude trong công việc coding bền bỉ.
Tham số thinking_level trong Gemini 3.1 Pro là gì?
Tham số thinking_level cho phép nhà phát triển kiểm soát độ sâu suy luận tối đa mà mô hình áp dụng trước khi tạo phản hồi. Mức thinking thấp nhanh hơn và rẻ hơn cho tác vụ đơn giản. Mức thinking cao phân bổ nhiều thời gian tính toán hơn cho các vấn đề suy luận phức tạp. Điều này cho phép nhà phát triển kiểm soát rõ ràng sự đánh đổi giữa chi phí, tốc độ và chất lượng, tương tự các điều khiển effort trong Claude Opus 4.6.
Endpoint custom tools trong Gemini 3.1 Pro là gì?
Gemini 3.1 Pro bao gồm một endpoint API riêng biệt gọi là gemini-3.1-pro-preview-customtools, được tối ưu hóa để ưu tiên các custom tools của nhà phát triển. Khi xây dựng ứng dụng agentic kết hợp lệnh bash và custom tools, endpoint này đảm bảo mô hình chọn và gọi đúng tool. Điều này đặc biệt hữu ích cho nhà phát triển xây dựng AI agent cần tương tác với hệ thống và API bên ngoài.

Cập nhật tin tức

Nhận tin tức AI mới nhất qua email.

Chia sẻ