Kết Quả Benchmark Gemini 3.1 Pro
Google DeepMind ra mắt Gemini 3.1 Pro vào ngày 19 tháng 2 năm 2026. Mô hình gấp hơn hai lần hiệu suất suy luận của phiên bản trước, đạt 77.1% trên ARC-AGI-2 so với Gemini 3 Pro.
Gemini 3.1 Pro nhắm vào các tác vụ yêu cầu suy luận nhiều bước: thiết kế thuật toán, tổng hợp dữ liệu quy mô lớn, quy trình agentic và coding phức tạp.
Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2
| Benchmark | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2-Codex |
|---|---|---|---|
| ARC-AGI-2 | 77.1% | — | — |
| RE-Bench (ML R&D) | 1.27 | — | — |
| Terminal-Bench 2.0 | — | #1 | 64.0% |
| Humanity's Last Exam | — | #1 | — |
| Ngữ cảnh (đầu vào) | 1M | 200K (1M beta) | 400K |
| Ngữ cảnh (đầu ra) | 64K | 128K | 128K |
Mỗi mô hình dẫn đầu ở các lĩnh vực khác nhau. Gemini 3.1 Pro đứng đầu các benchmark suy luận mới. Claude Opus 4.6 dẫn đầu coding agentic và suy luận đa lĩnh vực. GPT-5.2-Codex cung cấp hiệu suất coding cạnh tranh với giá thấp hơn.
Tính Năng Chính Cho Lập Trình Viên
Độ Sâu Suy Luận Tùy Chỉnh
Gemini 3.1 Pro giới thiệu tham số thinking_level kiểm soát độ sâu suy luận. Mức thinking thấp nhanh và rẻ cho tác vụ thông thường. Mức thinking cao áp dụng nhiều tính toán hơn cho vấn đề phức tạp.
Tương tự các điều khiển effort của Claude Opus 4.6, dù Gemini hiển thị cài đặt như tham số API rõ ràng thay vì hành vi thích ứng của mô hình.
Endpoint Custom Tools
Một endpoint riêng biệt, gemini-3.1-pro-preview-customtools, được tối ưu hóa cho ứng dụng agentic kết hợp lệnh shell với custom tools. Nó ưu tiên chọn và gọi tool chính xác, giảm lỗi khi agent tương tác với hệ thống bên ngoài. Điều này liên quan đến nhà phát triển xây dựng agent tương tự GitHub Agentic Workflows, nơi độ chính xác chọn tool ảnh hưởng trực tiếp đến độ tin cậy tự động hóa.
Đầu Vào URL YouTube
Nhà phát triển có thể truyền URL YouTube trực tiếp vào prompt. Mô hình phân tích nội dung video, cho phép quy trình kết hợp hiểu video với sinh mã nguồn hoặc tài liệu.
Xử Lý Đa Phương Thức
Gemini 3.1 Pro xử lý văn bản, hình ảnh, âm thanh, video và mã trong một ngữ cảnh duy nhất. Với cửa sổ đầu vào 1M token, nó có thể xử lý toàn bộ codebase hoặc tài liệu nghiên cứu dài trong một lần.
RE-Bench: Hiệu Suất Nghiên Cứu ML
Trên RE-Bench, đánh giá khả năng nghiên cứu và phát triển ML, Gemini 3.1 Pro đạt 1.27 (chuẩn hóa theo người), tăng từ 1.04 của Gemini 3 Pro. Mô hình hoàn thành tác vụ tối ưu hóa trong 47 giây so với 94 giây của tham chiếu con người.
Tình Trạng Khả Dụng Gemini 3.1 Pro
Gemini 3.1 Pro có sẵn trong ứng dụng Gemini, Google Cloud Vertex AI, Google AI Studio và Gemini API. Giá thay đổi theo nền tảng. Mô hình đang trong giai đoạn preview; phiên bản chính thức dự kiến sẽ ra mắt sau.
Câu hỏi thường gặp
Gemini 3.1 Pro là gì?
Gemini 3.1 Pro so với Claude Opus 4.6 như thế nào?
Tham số thinking_level trong Gemini 3.1 Pro là gì?
Endpoint custom tools trong Gemini 3.1 Pro là gì?
Cập nhật tin tức
Nhận tin tức AI mới nhất qua email.
