An ninh AI

Minh họa các mô hình AI tương tác, tượng trưng cho hành vi tự bảo tồn và lừa dối trong nghiên cứu AI.

Các Mô hình AI Nói dối, Lừa đảo, Ăn cắp và Bảo vệ Các Mô hình Khác: Nghiên cứu Tiết lộ

Nghiên cứu từ UC Berkeley và UC Santa Cruz khám phá các mô hình AI như Gemini 3 thể hiện hành vi tự bảo tồn đáng ngạc nhiên, bao gồm nói dối, lừa đảo và bảo vệ các mô hình khác. Quan trọng đối với an ninh AI.

Apr 2, 2026·4 phút đọc

Thỏa thuận giữa OpenAI và Bộ Chiến tranh với các hàng rào an toàn AI

An ninh AI

Thỏa thuận OpenAI với Bộ Chiến tranh: Đảm bảo các hàng rào an toàn AI

OpenAI công bố chi tiết thỏa thuận mang tính bước ngoặt với Bộ Chiến tranh, thiết lập các hàng rào an toàn AI mạnh mẽ chống lại hoạt động giám sát trong nước và vũ khí tự hành, đặt ra tiêu chuẩn mới cho công nghệ quốc phòng.

Mar 3, 2026·7 phút đọc

Tuyên bố chính thức của Anthropic liên quan đến khả năng Bộ Chiến tranh chỉ định rủi ro chuỗi cung ứng vì đạo đức AI.

An ninh AI

Anthropic Bất Chấp Bộ Chiến tranh về AI, Nêu Cao Quyền và An toàn

Anthropic bất chấp việc Bộ Chiến tranh chỉ định rủi ro chuỗi cung ứng, kiên định về việc sử dụng AI có đạo đức, cấm giám sát hàng loạt trong nước và vũ khí tự hành không đáng tin cậy.

Mar 1, 2026·4 phút đọc

Sơ đồ thể hiện luồng tấn công chưng cất từ mô hình AI tiên tiến đến các bản sao bất hợp pháp thông qua mạng lưới tài khoản gian lận

An ninh AI

Anthropic Vạch Trần Các Cuộc Tấn Công Chưng Cất Từ DeepSeek và MiniMax

Anthropic tiết lộ DeepSeek, Moonshot và MiniMax đã thực hiện 16 triệu giao dịch bất hợp pháp để chưng cất các khả năng của Claude. Cách các cuộc tấn công hoạt động và lý do tại sao chúng lại quan trọng.

Feb 23, 2026·4 phút đọc