Tấn công chưng cất AI là gì?

Tấn công chưng cất AI liên quan đến việc đào tạo một mô hình kém khả năng hơn dựa trên đầu ra của một mô hình mạnh hơn mà không được phép. Các đối thủ cạnh tranh tạo ra một lượng lớn các câu lệnh được thiết kế cẩn thận để trích xuất các khả năng cụ thể từ một mô hình tiên tiến, sau đó sử dụng các phản hồi để đào tạo hệ thống của riêng họ. Anthropic đã xác định hơn 16 triệu giao dịch bất hợp pháp trên khoảng 24.000 tài khoản gian lận được DeepSeek, Moonshot và MiniMax sử dụng để trích xuất các khả năng của Claude.

Những công ty nào đã chưng cất các khả năng của Claude?

Anthropic đã xác định ba phòng thí nghiệm AI của Trung Quốc thực hiện các chiến dịch chưng cất quy mô công nghiệp: DeepSeek (hơn 150.000 giao dịch nhắm mục tiêu vào khả năng suy luận và các giải pháp tránh kiểm duyệt), Moonshot AI (hơn 3,4 triệu giao dịch nhắm mục tiêu vào suy luận đại diện và sử dụng công cụ), và MiniMax (hơn 13 triệu giao dịch nhắm mục tiêu vào viết mã đại diện và điều phối công cụ).

Tại sao các cuộc tấn công chưng cất lại là rủi ro an ninh quốc gia?

Các mô hình được chưng cất bất hợp pháp thiếu các rào cản an toàn mà các công ty Mỹ như Anthropic xây dựng vào hệ thống của họ. Những mô hình không được bảo vệ này có thể được triển khai cho các hoạt động tấn công mạng, chiến dịch thông tin sai lệch, giám sát hàng loạt và thậm chí hỗ trợ phát triển vũ khí sinh học. Nếu các mô hình được chưng cất được phát hành mã nguồn mở, các khả năng nguy hiểm sẽ lan rộng ra ngoài tầm kiểm soát của bất kỳ chính phủ nào, làm suy yếu các biện pháp kiểm soát xuất khẩu được thiết kế để duy trì lợi thế AI của Mỹ.

DeepSeek, Moonshot và MiniMax đã truy cập Claude bằng cách nào?

Các phòng thí nghiệm đã lách các hạn chế truy cập khu vực của Anthropic bằng cách sử dụng các dịch vụ proxy thương mại bán lại quyền truy cập API của Claude ở quy mô lớn. Các dịch vụ này vận hành kiến trúc cụm 'hydra' với các mạng lưới tài khoản gian lận trải rộng trên API của Anthropic và các nền tảng đám mây của bên thứ ba. Một mạng lưới proxy đã quản lý hơn 20.000 tài khoản gian lận cùng lúc, trộn lẫn lưu lượng chưng cất với các yêu cầu hợp pháp để tránh bị phát hiện.

Anthropic đang phản ứng với các cuộc tấn công chưng cất như thế nào?

Anthropic đang triển khai nhiều biện pháp đối phó: phân loại dấu vân tay hành vi để phát hiện các mẫu chưng cất trong lưu lượng API, chia sẻ thông tin tình báo với các phòng thí nghiệm AI và nhà cung cấp đám mây khác, tăng cường xác minh tài khoản và các biện pháp bảo vệ cấp mô hình nhằm giảm hiệu quả đầu ra cho việc chưng cất bất hợp pháp mà không làm giảm chất lượng dịch vụ cho người dùng hợp pháp. Anthropic cũng đang kêu gọi các phản ứng phối hợp từ ngành và chính sách.

DeepSeek đã trích xuất cụ thể những gì từ Claude?

DeepSeek đã nhắm mục tiêu vào khả năng suy luận của Claude, các nhiệm vụ chấm điểm dựa trên tiêu chí (khiến Claude hoạt động như một mô hình phần thưởng cho học tăng cường), và các lựa chọn thay thế an toàn về kiểm duyệt cho các truy vấn nhạy cảm về chính trị. Họ đã sử dụng các kỹ thuật yêu cầu Claude trình bày suy luận nội bộ của mình từng bước một, tạo ra dữ liệu huấn luyện chuỗi suy nghĩ ở quy mô lớn. Anthropic đã truy tìm các tài khoản này đến các nhà nghiên cứu cụ thể tại DeepSeek.

Anthropic Vạch Trần Các Cuộc Tấn Công Chưng Cất Từ DeepSeek và MiniMax

Anthropic Phát Hiện Các Chiến Dịch Chưng Cất Quy Mô Công Nghiệp

Anthropic đã công bố bằng chứng cho thấy ba phòng thí nghiệm AI — DeepSeek, Moonshot AI và MiniMax — đã tiến hành các chiến dịch phối hợp để trích xuất các khả năng của Claude thông qua việc chưng cất bất hợp pháp. Các chiến dịch này đã tạo ra hơn 16 triệu giao dịch với Claude thông qua khoảng 24.000 tài khoản gian lận, vi phạm các điều khoản dịch vụ và hạn chế truy cập khu vực của Anthropic.

Chưng cất là một kỹ thuật hợp pháp trong đó một mô hình nhỏ hơn được huấn luyện dựa trên đầu ra từ một mô hình mạnh hơn. Các phòng thí nghiệm tiên tiến thường xuyên chưng cất các mô hình của riêng họ để tạo ra các phiên bản rẻ hơn. Nhưng khi các đối thủ cạnh tranh sử dụng chưng cất mà không được phép, họ sẽ có được các khả năng mạnh mẽ với một phần nhỏ chi phí và thời gian cần thiết để phát triển độc lập.

Các cuộc tấn công nhắm vào các tính năng khác biệt nhất của Claude: suy luận đại diện, sử dụng công cụ và viết mã — những khả năng tương tự cung cấp sức mạnh cho Claude Opus 4.6 và Claude Sonnet 4.6.

Quy Mô và Mục Tiêu Của Mỗi Chiến Dịch

Phòng thí nghiệm	Giao dịch	Mục tiêu chính
DeepSeek	150.000+	Suy luận, chấm điểm mô hình thưởng, giải pháp tránh kiểm duyệt
Moonshot AI	3,4 triệu+	Suy luận đại diện, sử dụng công cụ, thị giác máy tính
MiniMax	13 triệu+	Viết mã đại diện, điều phối công cụ

DeepSeek đã sử dụng một kỹ thuật đáng chú ý: các câu lệnh yêu cầu Claude trình bày suy luận nội bộ của mình từng bước một, tạo ra dữ liệu huấn luyện chuỗi suy nghĩ hiệu quả ở quy mô lớn. Họ cũng sử dụng Claude để tạo ra các lựa chọn thay thế an toàn về kiểm duyệt cho các truy vấn nhạy cảm về chính trị — có khả năng để huấn luyện các mô hình của riêng họ nhằm chuyển hướng cuộc trò chuyện khỏi các chủ đề bị kiểm duyệt. Anthropic đã truy tìm các tài khoản này đến các nhà nghiên cứu cụ thể tại phòng thí nghiệm.

Moonshot AI (các mô hình Kimi) đã sử dụng hàng trăm tài khoản gian lận trên nhiều con đường truy cập. Trong giai đoạn sau, Moonshot đã chuyển sang một cách tiếp cận có mục tiêu hơn, cố gắng trích xuất và tái tạo các dấu vết suy luận của Claude.

MiniMax đã tiến hành chiến dịch lớn nhất với hơn 13 triệu giao dịch. Anthropic đã phát hiện chiến dịch này khi nó vẫn đang hoạt động — trước khi MiniMax phát hành mô hình mà họ đang huấn luyện. Khi Anthropic phát hành một mô hình mới trong chiến dịch đang hoạt động, MiniMax đã xoay trục trong vòng 24 giờ, chuyển hướng gần một nửa lưu lượng truy cập của họ để nắm bắt các khả năng mới nhất.

Cách Các Kẻ Chưng Cất Vượt Qua Các Hạn Chế Truy Cập

Anthropic không cung cấp quyền truy cập thương mại Claude tại Trung Quốc vì lý do an ninh quốc gia. Các phòng thí nghiệm đã lách điều này thông qua các dịch vụ proxy thương mại bán lại quyền truy cập mô hình tiên tiến ở quy mô lớn.

Các dịch vụ này chạy cái mà Anthropic gọi là kiến trúc "cụm hydra": các mạng lưới tài khoản gian lận trải rộng phân phối lưu lượng truy cập trên API và các nền tảng đám mây của bên thứ ba. Khi một tài khoản bị cấm, một tài khoản mới sẽ thay thế nó. Một mạng lưới proxy đã quản lý hơn 20.000 tài khoản gian lận cùng lúc, trộn lẫn lưu lượng chưng cất với các yêu cầu của khách hàng không liên quan để khiến việc phát hiện trở nên khó khăn hơn.

Điều phân biệt chưng cất với việc sử dụng thông thường là mô hình. Một câu lệnh duy nhất có thể trông vô hại, nhưng khi các biến thể đến hàng chục nghìn lần trên hàng trăm tài khoản được phối hợp, tất cả đều nhắm vào cùng một khả năng hẹp, thì mô hình đó trở nên rõ ràng.

Hàm Ý Về An Ninh Quốc Gia

Các mô hình được chưng cất bất hợp pháp thiếu các rào cản an toàn mà các công ty Mỹ xây dựng vào các hệ thống tiên tiến. Các rào cản này ngăn AI bị sử dụng để phát triển vũ khí sinh học, thực hiện các hoạt động tấn công mạng hoặc cho phép giám sát hàng loạt.

Các mô hình được xây dựng thông qua chưng cất bất hợp pháp khó có thể giữ lại các biện pháp bảo vệ đó. Các phòng thí nghiệm nước ngoài có thể đưa các khả năng không được bảo vệ vào các hệ thống quân sự, tình báo và giám sát. Nếu các mô hình được chưng cất được phát hành mã nguồn mở, các khả năng nguy hiểm sẽ lan truyền tự do ngoài tầm kiểm soát của bất kỳ chính phủ nào.

Các cuộc tấn công chưng cất cũng làm suy yếu các biện pháp kiểm soát xuất khẩu của Mỹ. Nếu không có khả năng hiển thị các cuộc tấn công này, những tiến bộ nhanh chóng rõ ràng của các phòng thí nghiệm này có thể bị hiểu sai là bằng chứng cho thấy các biện pháp kiểm soát xuất khẩu không hiệu quả. Trên thực tế, những tiến bộ này phụ thuộc vào các khả năng được trích xuất từ các mô hình của Mỹ, và việc thực hiện trích xuất ở quy mô lớn đòi hỏi các chip tiên tiến mà các biện pháp kiểm soát xuất khẩu được thiết kế để hạn chế.

Các Biện Pháp Đối Phó Của Anthropic

Anthropic đang triển khai nhiều biện pháp phòng thủ chống lại các cuộc tấn công chưng cất:

Hệ thống phân loại phát hiện: Các hệ thống dấu vân tay hành vi giúp xác định các mẫu chưng cất trong lưu lượng API, bao gồm việc gợi mở chuỗi suy nghĩ được sử dụng để xây dựng dữ liệu huấn luyện suy luận
Chia sẻ thông tin tình báo: Các chỉ số kỹ thuật được chia sẻ với các phòng thí nghiệm AI khác, nhà cung cấp đám mây và các cơ quan có thẩm quyền liên quan để có cái nhìn tổng thể về tình hình chưng cất
Kiểm soát truy cập: Tăng cường xác minh cho các tài khoản giáo dục, chương trình nghiên cứu bảo mật và các tổ chức khởi nghiệp — những con đường bị khai thác phổ biến nhất
Biện pháp bảo vệ cấp mô hình: Các biện pháp đối phó cấp sản phẩm, API và mô hình được thiết kế để giảm hiệu quả đầu ra cho việc chưng cất bất hợp pháp mà không làm giảm chất lượng sử dụng hợp pháp

Anthropic cũng đã liên hệ những phát hiện này với sự hỗ trợ trước đây của mình cho các khả năng Claude Code Security dành cho các nhà bảo vệ, một phần của chiến lược rộng lớn hơn nhằm đảm bảo các khả năng AI tiên tiến vẫn được bảo vệ.

Cần Có Phản Ứng Toàn Ngành

Anthropic nhấn mạnh rằng không có công ty nào có thể giải quyết các cuộc tấn công chưng cất một mình. Các chiến dịch này khai thác các dịch vụ proxy thương mại, nền tảng đám mây của bên thứ ba và những lỗ hổng trong xác minh tài khoản trải rộng trên toàn bộ hệ sinh thái AI.

Cường độ và sự tinh vi ngày càng tăng của các chiến dịch này thu hẹp thời gian để hành động. Anthropic đã quan sát thấy rằng những kẻ chưng cất thích nghi nhanh chóng: khi các mô hình mới được phát hành, các nỗ lực trích xuất sẽ xoay trục trong vòng vài giờ. Khi các tài khoản bị cấm, các mạng lưới proxy sẽ thay thế chúng ngay lập tức thông qua kiến trúc cụm hydra không có điểm lỗi duy nhất.

Giải quyết mối đe dọa này đòi hỏi hành động phối hợp giữa các công ty AI, nhà cung cấp đám mây và các nhà hoạch định chính sách. Anthropic đã công bố những phát hiện của mình để cung cấp bằng chứng cho tất cả những ai có lợi ích trong việc bảo vệ các khả năng AI tiên tiến khỏi việc trích xuất trái phép. Công ty đang kêu gọi các tiêu chuẩn toàn ngành về xác minh tài khoản, các khuôn khổ chia sẻ thông tin tình báo về mối đe dọa và hỗ trợ chính sách để thực thi chống lại việc chưng cất bất hợp pháp ở quy mô lớn.