Anthropic deckt Destillationskampagnen im industriellen Maßstab auf
Anthropic hat Beweise veröffentlicht, dass drei KI-Labore – DeepSeek, Moonshot AI und MiniMax – koordinierte Kampagnen durchgeführt haben, um Claudes Fähigkeiten durch illegale Destillation zu extrahieren. Die Kampagnen generierten über 16 Millionen Austausche mit Claude über ungefähr 24.000 betrügerische Konten, was gegen Anthropic's Nutzungsbedingungen und regionale Zugriffsbarrieren verstößt.
Destillation ist eine legitime Technik, bei der ein kleineres Modell anhand der Ausgaben eines stärkeren trainiert wird. Frontier-Labore destillieren regelmäßig ihre eigenen Modelle, um günstigere Versionen zu erstellen. Wenn Wettbewerber jedoch Destillation ohne Genehmigung nutzen, erlangen sie leistungsstarke Fähigkeiten zu einem Bruchteil der Kosten und der Zeit, die für eine unabhängige Entwicklung erforderlich wären.
Die Angriffe zielten auf Claudes differenzierteste Funktionen ab: agentisches Schlussfolgern, Werkzeugnutzung und Kodierung – dieselben Fähigkeiten, die Claude Opus 4.6 und Claude Sonnet 4.6 antreiben.
Umfang und Ziele jeder Kampagne
| Labor | Austausche | Primäre Ziele |
|---|---|---|
| DeepSeek | 150.000+ | Schlussfolgerungsvermögen, Belohnungsmodell-Bewertung, Zensurumgehungen |
| Moonshot AI | 3,4 Millionen+ | Agentisches Schlussfolgern, Werkzeugnutzung, Computer Vision |
| MiniMax | 13 Millionen+ | Agentisches Kodieren, Werkzeugorchestrierung |
DeepSeek nutzte eine bemerkenswerte Technik: Prompts, die Claude aufforderten, seine interne Denkweise Schritt für Schritt zu artikulieren, wodurch effektiv Chain-of-Thought-Trainingsdaten im großen Maßstab generiert wurden. Sie nutzten Claude auch, um zensursichere Alternativen zu politisch sensiblen Anfragen zu generieren – wahrscheinlich um ihre eigenen Modelle darauf zu trainieren, Konversationen von zensierten Themen wegzulenken. Anthropic verfolgte diese Konten zu spezifischen Forschern im Labor.
Moonshot AI (Kimi-Modelle) setzte Hunderte von betrügerischen Konten über mehrere Zugangspfade hinweg ein. In einer späteren Phase wechselte Moonshot zu einem zielgerichteteren Ansatz und versuchte, Claudes Denkspuren zu extrahieren und zu rekonstruieren.
MiniMax führte die größte Kampagne mit über 13 Millionen Austauschen durch. Anthropic entdeckte diese Kampagne, während sie noch aktiv war – bevor MiniMax das Modell veröffentlichte, das es trainierte. Als Anthropic während der aktiven Kampagne ein neues Modell veröffentlichte, schwenkte MiniMax innerhalb von 24 Stunden um und leitete fast die Hälfte ihres Datenverkehrs um, um die neuesten Fähigkeiten zu erfassen.
Wie Destillateure Zugangsbeschränkungen umgehen
Anthropic bietet in China keinen kommerziellen Claude-Zugriff aus Gründen der nationalen Sicherheit an. Die Labore umgingen dies durch kommerzielle Proxy-Dienste, die den Zugriff auf Frontier-Modelle im großen Maßstab weiterverkaufen.
Diese Dienste betreiben, was Anthropic "Hydra-Cluster"-Architekturen nennt: weitverzweigte Netzwerke betrügerischer Konten, die den Datenverkehr über die API und Drittanbieter-Cloud-Plattformen verteilen. Wenn ein Konto gesperrt wird, ersetzt ein neues es. Ein Proxy-Netzwerk verwaltete mehr als 20.000 betrügerische Konten gleichzeitig und mischte Destillationsverkehr mit nicht zusammenhängenden Kundenanfragen, um die Erkennung zu erschweren.
Was Destillation von normaler Nutzung unterscheidet, ist das Muster. Ein einzelner Prompt mag harmlos erscheinen, aber wenn Varianten zehntausende Male über Hunderte koordinierter Konten eintreffen, die alle auf dieselbe eng definierte Fähigkeit abzielen, wird das Muster deutlich.
Implikationen für die nationale Sicherheit
Illegitim destillierten Modellen fehlen die Sicherheitsleitplanken, die US-Unternehmen in Frontier-Systeme einbauen. Diese Leitplanken verhindern, dass KI zur Entwicklung von Biowaffen, zur Durchführung offensiver Cyberoperationen oder zur Massenüberwachung eingesetzt wird.
Modelle, die durch illegitime Destillation erstellt werden, werden diese Schutzmaßnahmen wahrscheinlich nicht beibehalten. Ausländische Labore können ungeschützte Fähigkeiten in militärische, nachrichtendienstliche und Überwachungssysteme einspeisen. Wenn destillierte Modelle quelloffen sind, verbreiten sich gefährliche Fähigkeiten frei außerhalb der Kontrolle jeder Regierung.
Destillationsangriffe untergraben auch die US-Exportkontrollen. Ohne Einblick in diese Angriffe können die scheinbar schnellen Fortschritte dieser Labore fälschlicherweise als Beweis für die Ineffektivität der Exportkontrollen interpretiert werden. In Wirklichkeit hängen die Fortschritte von Fähigkeiten ab, die aus amerikanischen Modellen extrahiert wurden, und die Durchführung der Extraktion im großen Maßstab erfordert die fortschrittlichen Chips, die Exportkontrollen einschränken sollen.
Anthropic's Gegenmaßnahmen
Anthropic setzt mehrere Abwehrmaßnahmen gegen Destillationsangriffe ein:
- Erkennungsklassifikatoren: Verhaltens-Fingerprinting-Systeme, die Destillationsmuster im API-Verkehr identifizieren, einschließlich der Elicitation von Denkketten, die zum Aufbau von Reasoning-Trainingsdaten verwendet wird
- Informationsaustausch: Technische Indikatoren, die mit anderen KI-Laboren, Cloud-Anbietern und relevanten Behörden geteilt werden, um ein ganzheitliches Bild der Destillationslandschaft zu erhalten
- Zugangskontrollen: Verstärkte Verifizierung für Bildungskonten, Sicherheitsforschungsprogramme und Startup-Organisationen – die am häufigsten ausgenutzten Wege
- Sicherheitsvorkehrungen auf Modellebene: Produkt-, API- und modellbasierte Gegenmaßnahmen, die darauf abzielen, die Ausgabe-Effizienz für illegitime Destillation zu reduzieren, ohne die legitime Nutzung zu beeinträchtigen
Anthropic hat diese Erkenntnisse auch mit seiner früheren Unterstützung für Claude Code Security-Fähigkeiten für Verteidiger verknüpft, als Teil einer breiteren Strategie, um sicherzustellen, dass Frontier-KI-Fähigkeiten geschützt bleiben.
Branchenweite Reaktion erforderlich
Anthropic betont, dass kein einzelnes Unternehmen Destillationsangriffe allein lösen kann. Die Kampagnen nutzen kommerzielle Proxy-Dienste, Drittanbieter-Cloud-Plattformen und Lücken in der Kontoverifizierung aus, die das gesamte KI-Ökosystem umfassen.
Die wachsende Intensität und Raffinesse dieser Kampagnen verengt das Zeitfenster zum Handeln. Anthropic hat beobachtet, dass Destillateure sich schnell anpassen: Wenn neue Modelle veröffentlicht werden, ändern sich die Extraktionsbemühungen innerhalb von Stunden. Wenn Konten gesperrt werden, ersetzen Proxy-Netzwerke diese sofort durch Hydra-Cluster-Architekturen ohne Single Point of Failure.
Die Bewältigung der Bedrohung erfordert koordiniertes Handeln von KI-Unternehmen, Cloud-Anbietern und politischen Entscheidungsträgern. Anthropic veröffentlichte seine Ergebnisse, um die Beweise allen Beteiligten zugänglich zu machen, die ein Interesse daran haben, Frontier-KI-Fähigkeiten vor unautorisierter Extraktion zu schützen. Das Unternehmen fordert branchenweite Standards für die Kontoverifizierung, gemeinsame Rahmenwerke für die Bedrohungsanalyse und politische Unterstützung für die Durchsetzung gegen illegale Destillation im großen Maßstab.
Häufig gestellte Fragen
Was sind KI-Destillationsangriffe?
Welche Unternehmen haben Claudes Fähigkeiten destilliert?
Warum stellen Destillationsangriffe ein nationales Sicherheitsrisiko dar?
Wie haben DeepSeek, Moonshot und MiniMax auf Claude zugegriffen?
Wie reagiert Anthropic auf Destillationsangriffe?
Was hat DeepSeek speziell von Claude extrahiert?
Bleiben Sie informiert
Erhalten Sie die neuesten KI-Nachrichten per E-Mail.
