Η Anthropic Αποκαλύπτει Επιθέσεις Απόσταξης από την DeepSeek και την MiniMax

Η Anthropic Αποκαλύπτει Εκστρατείες Απόσταξης σε Βιομηχανική Κλίμακα

Η Anthropic δημοσίευσε στοιχεία ότι τρία εργαστήρια AI — η DeepSeek, η Moonshot AI και η MiniMax — πραγματοποίησαν συντονισμένες εκστρατείες για την εξαγωγή των δυνατοτήτων του Claude μέσω παράνομης απόσταξης. Οι εκστρατείες δημιούργησαν πάνω από 16 εκατομμύρια ανταλλαγές με τον Claude μέσω περίπου 24.000 δόλιων λογαριασμών, παραβιάζοντας τους όρους υπηρεσίας και τους περιφερειακούς περιορισμούς πρόσβασης της Anthropic.

Η απόσταξη είναι μια νόμιμη τεχνική όπου ένα μικρότερο μοντέλο εκπαιδεύεται στις εξόδους ενός ισχυρότερου. Τα εργαστήρια αιχμής αποστάζουν τακτικά τα δικά τους μοντέλα για να δημιουργήσουν φθηνότερες εκδόσεις. Αλλά όταν οι ανταγωνιστές χρησιμοποιούν απόσταξη χωρίς εξουσιοδότηση, αποκτούν ισχυρές δυνατότητες με ένα κλάσμα του κόστους και του χρόνου που απαιτείται για ανεξάρτητη ανάπτυξη.

Οι επιθέσεις στόχευσαν τις πιο διαφοροποιημένες δυνατότητες του Claude: τη συλλογιστική με βάση παράγοντες, τη χρήση εργαλείων και τον προγραμματισμό — τις ίδιες δυνατότητες που τροφοδοτούν τον Claude Opus 4.6 και τον Claude Sonnet 4.6.

Κλίμακα και Στόχοι Κάθε Εκστρατείας

Εργαστήριο	Ανταλλαγές	Πρωτεύοντες Στόχοι
DeepSeek	150.000+	Συλλογιστική, βαθμολόγηση μοντέλου επιβράβευσης, παρακάμψεις λογοκρισίας
Moonshot AI	3,4 εκατομμύρια+	Συλλογιστική με βάση παράγοντες, χρήση εργαλείων, όραση υπολογιστή
MiniMax	13 εκατομμύρια+	Προγραμματισμός με βάση παράγοντες, ενορχήστρωση εργαλείων

Η DeepSeek χρησιμοποίησε μια αξιοσημείωτη τεχνική: προτροπές που ζητούσαν από τον Claude να εκφράσει την εσωτερική του συλλογιστική βήμα προς βήμα, δημιουργώντας αποτελεσματικά δεδομένα εκπαίδευσης αλυσίδας σκέψης σε μεγάλη κλίμακα. Χρησιμοποίησαν επίσης τον Claude για να δημιουργήσουν ασφαλείς εναλλακτικές λύσεις για πολιτικά ευαίσθητα ερωτήματα — πιθανότατα για να εκπαιδεύσουν τα δικά τους μοντέλα να απομακρύνουν τις συζητήσεις από λογοκριμένα θέματα. Η Anthropic εντόπισε αυτούς τους λογαριασμούς σε συγκεκριμένους ερευνητές του εργαστηρίου.

Η Moonshot AI (μοντέλα Kimi) χρησιμοποίησε εκατοντάδες δόλιους λογαριασμούς μέσω πολλαπλών διαδρομών πρόσβασης. Σε μια μεταγενέστερη φάση, η Moonshot μετατοπίστηκε σε μια πιο στοχευμένη προσέγγιση, επιχειρώντας να εξάγει και να ανακατασκευάσει τα ίχνη συλλογιστικής του Claude.

Η MiniMax πραγματοποίησε τη μεγαλύτερη εκστρατεία με πάνω από 13 εκατομμύρια ανταλλαγές. Η Anthropic ανίχνευσε αυτήν την εκστρατεία ενώ ήταν ακόμα ενεργή — πριν η MiniMax κυκλοφορήσει το μοντέλο που εκπαιδευόταν. Όταν η Anthropic κυκλοφόρησε ένα νέο μοντέλο κατά τη διάρκεια της ενεργής εκστρατείας, η MiniMax άλλαξε κατεύθυνση μέσα σε 24 ώρες, ανακατευθύνοντας σχεδόν το ήμισυ της κίνησής της για να αποκτήσει τις τελευταίες δυνατότητες.

Πώς Παρακάμπτουν οι Αποστακτήρες τους Περιορισμούς Πρόσβασης

Η Anthropic δεν προσφέρει εμπορική πρόσβαση στον Claude στην Κίνα για λόγους εθνικής ασφάλειας. Τα εργαστήρια το παρέκαμψαν αυτό μέσω εμπορικών υπηρεσιών proxy που μεταπωλούν την πρόσβαση σε μοντέλα αιχμής σε μεγάλη κλίμακα.

Αυτές οι υπηρεσίες λειτουργούν αυτό που η Anthropic αποκαλεί αρχιτεκτονικές «συστάδων ύδρας» (hydra cluster architectures): εκτεταμένα δίκτυα δόλιων λογαριασμών που κατανέμουν την κίνηση στο API και σε πλατφόρμες cloud τρίτων. Όταν ένας λογαριασμός αποκλείεται, ένας νέος τον αντικαθιστά. Ένα δίκτυο proxy διαχειριζόταν ταυτόχρονα περισσότερους από 20.000 δόλιους λογαριασμούς, αναμειγνύοντας την κίνηση απόσταξης με άσχετα αιτήματα πελατών για να καταστήσει δυσκολότερη την ανίχνευση.

Αυτό που διακρίνει την απόσταξη από την κανονική χρήση είναι το μοτίβο. Μια απλή προτροπή μπορεί να φαίνεται ακίνδυνη, αλλά όταν παραλλαγές φτάνουν δεκάδες χιλιάδες φορές σε εκατοντάδες συντονισμένους λογαριασμούς, όλοι στοχεύοντας την ίδια στενή δυνατότητα, το μοτίβο γίνεται σαφές.

Επιπτώσεις στην Εθνική Ασφάλεια

Τα παράνομα αποσταγμένα μοντέλα στερούνται τους φραγμούς ασφαλείας που ενσωματώνουν οι εταιρείες των ΗΠΑ στα συστήματα αιχμής. Αυτοί οι φραγμοί αποτρέπουν τη χρήση της AI για την ανάπτυξη βιολογικών όπλων, τη διεξαγωγή επιθετικών κυβερνοεπιχειρήσεων ή την ενεργοποίηση μαζικής παρακολούθησης.

Τα μοντέλα που δημιουργούνται μέσω παράνομης απόσταξης είναι απίθανο να διατηρήσουν αυτές τις προστασίες. Ξένα εργαστήρια μπορούν να τροφοδοτήσουν απροστάτευτες δυνατότητες σε στρατιωτικά, πληροφοριακά και συστήματα επιτήρησης. Εάν τα αποσταγμένα μοντέλα γίνουν ανοιχτού κώδικα, επικίνδυνες δυνατότητες διαδίδονται ελεύθερα πέρα από τον έλεγχο οποιασδήποτε κυβέρνησης.

Οι επιθέσεις απόσταξης υπονομεύουν επίσης τους ελέγχους εξαγωγών των ΗΠΑ. Χωρίς ορατότητα σε αυτές τις επιθέσεις, οι φαινομενικά ταχείες εξελίξεις από αυτά τα εργαστήρια μπορούν να ερμηνευθούν λανθασμένα ως απόδειξη ότι οι έλεγχοι εξαγωγών είναι αναποτελεσματικοί. Στην πραγματικότητα, οι εξελίξεις εξαρτώνται από δυνατότητες που εξάγονται από αμερικανικά μοντέλα, και η εκτέλεση της εξαγωγής σε κλίμακα απαιτεί τα προηγμένα τσιπ που οι έλεγχοι εξαγωγών έχουν σχεδιαστεί για να περιορίσουν.

Αντίμετρα της Anthropic

Η Anthropic αναπτύσσει πολλαπλές άμυνες έναντι των επιθέσεων απόσταξης:

Ταξινομητές ανίχνευσης: Συστήματα συμπεριφορικής δακτυλοσκόπησης που αναγνωρίζουν μοτίβα απόσταξης στην κίνηση API, συμπεριλαμβανομένης της ανάκλησης αλυσίδας σκέψης που χρησιμοποιείται για την κατασκευή δεδομένων εκπαίδευσης συλλογιστικής
Κοινή χρήση πληροφοριών: Τεχνικοί δείκτες που μοιράζονται με άλλα εργαστήρια AI, παρόχους cloud και αρμόδιες αρχές για μια ολιστική εικόνα του τοπίου απόσταξης
Έλεγχοι πρόσβασης: Ενισχυμένη επαλήθευση για εκπαιδευτικούς λογαριασμούς, προγράμματα έρευνας ασφάλειας και νεοφυείς οργανισμούς — τις διαδρομές που εκμεταλλεύονται συχνότερα
Διασφαλίσεις σε επίπεδο μοντέλου: Αντίμετρα σε επίπεδο προϊόντος, API και μοντέλου σχεδιασμένα να μειώνουν την αποτελεσματικότητα εξόδου για παράνομη απόσταξη χωρίς να υποβαθμίζουν τη νόμιμη χρήση

Η Anthropic έχει επίσης συνδέσει αυτά τα ευρήματα με την προηγούμενη υποστήριξή της για τις δυνατότητες Ασφάλειας Κώδικα Claude για τους αμυνόμενους, μέρος μιας ευρύτερης στρατηγικής για να διασφαλίσει ότι οι δυνατότητες AI αιχμής παραμένουν προστατευμένες.

Απαιτείται Αντίδραση σε Επίπεδο Βιομηχανίας

Η Anthropic τονίζει ότι καμία εταιρεία δεν μπορεί να επιλύσει μόνη της τις επιθέσεις απόσταξης. Οι εκστρατείες εκμεταλλεύονται εμπορικές υπηρεσίες proxy, πλατφόρμες cloud τρίτων και κενά στην επαλήθευση λογαριασμών που εκτείνονται σε ολόκληρο το οικοσύστημα της AI.

Η αυξανόμενη ένταση και πολυπλοκότητα αυτών των εκστρατειών στενεύει το περιθώριο δράσης. Η Anthropic παρατήρησε ότι οι αποστακτήρες προσαρμόζονται γρήγορα: όταν κυκλοφορούν νέα μοντέλα, οι προσπάθειες εξαγωγής αλλάζουν κατεύθυνση μέσα σε λίγες ώρες. Όταν οι λογαριασμοί αποκλείονται, τα δίκτυα proxy τους αντικαθιστούν άμεσα μέσω αρχιτεκτονικών συστάδων ύδρας χωρίς κανένα σημείο αποτυχίας.

Η αντιμετώπιση της απειλής απαιτεί συντονισμένη δράση μεταξύ εταιρειών AI, παρόχων cloud και φορέων χάραξης πολιτικής. Η Anthropic δημοσίευσε τα ευρήματά της για να καταστήσει τα στοιχεία διαθέσιμα σε όλους όσους έχουν συμφέρον στην προστασία των δυνατοτήτων AI αιχμής από μη εξουσιοδοτημένη εξαγωγή. Η εταιρεία ζητά πρότυπα σε επίπεδο βιομηχανίας για την επαλήθευση λογαριασμών, κοινά πλαίσια πληροφοριών απειλών και υποστήριξη πολιτικής για την επιβολή κατά της παράνομης απόσταξης σε μεγάλη κλίμακα.

Αρχική πηγή

https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks

Συχνές ερωτήσεις

Τι είναι οι επιθέσεις απόσταξης AI;

Οι επιθέσεις απόσταξης AI περιλαμβάνουν την εκπαίδευση ενός λιγότερο ικανού μοντέλου στις εξόδους ενός ισχυρότερου, χωρίς εξουσιοδότηση. Οι ανταγωνιστές δημιουργούν τεράστιους όγκους προσεκτικά σχεδιασμένων προτροπών για να εξάγουν συγκεκριμένες δυνατότητες από ένα μοντέλο αιχμής, και στη συνέχεια χρησιμοποιούν τις αποκρίσεις για να εκπαιδεύσουν τα δικά τους συστήματα. Η Anthropic εντόπισε πάνω από 16 εκατομμύρια παράνομες ανταλλαγές σε περίπου 24.000 δόλιους λογαριασμούς που χρησιμοποιήθηκαν από τις DeepSeek, Moonshot και MiniMax για την εξαγωγή των δυνατοτήτων του Claude.

Ποιες εταιρείες απέσταξαν τις δυνατότητες του Claude;

Η Anthropic εντόπισε τρία κινεζικά εργαστήρια AI που διεξήγαγαν εκστρατείες απόσταξης σε βιομηχανική κλίμακα: την DeepSeek (πάνω από 150.000 ανταλλαγές που στόχευαν τη συλλογιστική και την παράκαμψη λογοκρισίας), την Moonshot AI (πάνω από 3,4 εκατομμύρια ανταλλαγές που στόχευαν τη συλλογιστική με βάση παράγοντες και τη χρήση εργαλείων), και την MiniMax (πάνω από 13 εκατομμύρια ανταλλαγές που στόχευαν τον προγραμματισμό με βάση παράγοντες και την ενορχήστρωση εργαλείων).

Γιατί οι επιθέσεις απόσταξης αποτελούν κίνδυνο για την εθνική ασφάλεια;

Τα παράνομα αποσταγμένα μοντέλα στερούνται τους φραγμούς ασφαλείας που ενσωματώνουν στις ΗΠΑ εταιρείες όπως η Anthropic στα συστήματά τους. Αυτά τα απροστάτευτα μοντέλα μπορούν να χρησιμοποιηθούν για επιθετικές κυβερνοεπιχειρήσεις, εκστρατείες παραπληροφόρησης, μαζική παρακολούθηση, ακόμα και υποστήριξη ανάπτυξης βιολογικών όπλων. Εάν τα αποσταγμένα μοντέλα γίνουν ανοιχτού κώδικα, επικίνδυνες δυνατότητες διαδίδονται πέρα από τον έλεγχο οποιασδήποτε κυβέρνησης, υπονομεύοντας τους ελέγχους εξαγωγών που έχουν σχεδιαστεί για τη διατήρηση του πλεονεκτήματος των ΗΠΑ στην AI.

Πώς απέκτησαν οι DeepSeek, Moonshot και MiniMax πρόσβαση στον Claude;

Τα εργαστήρια παρέκαμψαν τους περιορισμούς περιφερειακής πρόσβασης της Anthropic χρησιμοποιώντας εμπορικές υπηρεσίες proxy που μεταπωλούν την πρόσβαση στο API του Claude σε μεγάλη κλίμακα. Αυτές οι υπηρεσίες λειτουργούν αρχιτεκτονικές τύπου «συστάδων ύδρας» (hydra cluster architectures) με εκτεταμένα δίκτυα δόλιων λογαριασμών κατανεμημένων στο API της Anthropic και σε πλατφόρμες cloud τρίτων. Ένα δίκτυο proxy διαχειριζόταν ταυτόχρονα περισσότερους από 20.000 δόλιους λογαριασμούς, αναμειγνύοντας την κίνηση απόσταξης με νόμιμα αιτήματα για να αποφύγει την ανίχνευση.

Πώς αντιδρά η Anthropic στις επιθέσεις απόσταξης;

Η Anthropic αναπτύσσει πολλαπλά αντίμετρα: ταξινομητές συμπεριφορικής δακτυλοσκόπησης για την ανίχνευση μοτίβων απόσταξης στην κίνηση API, ανταλλαγή πληροφοριών με άλλα εργαστήρια AI και παρόχους cloud, ενισχυμένη επαλήθευση λογαριασμών και διασφαλίσεις σε επίπεδο μοντέλου που μειώνουν την αποτελεσματικότητα εξόδου για παράνομη απόσταξη χωρίς να υποβαθμίζουν την υπηρεσία για νόμιμους χρήστες. Η Anthropic ζητά επίσης συντονισμένες απαντήσεις από τη βιομηχανία και την πολιτική.

Τι ακριβώς εξήγαγε η DeepSeek από τον Claude;

Η DeepSeek στόχευσε τις συλλογιστικές δυνατότητες του Claude, τις εργασίες βαθμολόγησης με βάση κριτήρια (κάνοντας τον Claude να λειτουργεί ως μοντέλο επιβράβευσης για ενισχυτική μάθηση) και τις ασφαλείς εναλλακτικές λύσεις για πολιτικά ευαίσθητα ερωτήματα. Χρησιμοποίησαν τεχνικές που ζητούσαν από τον Claude να εκφράσει την εσωτερική του συλλογιστική βήμα προς βήμα, δημιουργώντας δεδομένα εκπαίδευσης αλυσίδας σκέψης σε μεγάλη κλίμακα. Η Anthropic εντόπισε αυτούς τους λογαριασμούς σε συγκεκριμένους ερευνητές της DeepSeek.

Μείνετε ενημερωμένοι

Λάβετε τα τελευταία νέα AI στο email σας.

Κοινοποίηση