Was sind KI-Destillationsangriffe?

KI-Destillationsangriffe umfassen das unautorisierte Training eines weniger leistungsfähigen Modells anhand der Ausgaben eines stärkeren Modells. Wettbewerber generieren riesige Mengen sorgfältig ausgearbeiteter Prompts, um spezifische Fähigkeiten von einem Frontier-Modell zu extrahieren, und nutzen die Antworten dann, um ihre eigenen Systeme zu trainieren. Anthropic identifizierte über 16 Millionen illegale Austausche über ungefähr 24.000 betrügerische Konten, die von DeepSeek, Moonshot und MiniMax genutzt wurden, um Claudes Fähigkeiten zu extrahieren.

Welche Unternehmen haben Claudes Fähigkeiten destilliert?

Anthropic identifizierte drei chinesische KI-Labore, die Destillationskampagnen im industriellen Maßstab durchführten: DeepSeek (über 150.000 Austausche, die auf Schlussfolgerungsvermögen und Zensurumgehungen abzielten), Moonshot AI (über 3,4 Millionen Austausche, die auf agentisches Schlussfolgerungsvermögen und Werkzeugnutzung abzielten) und MiniMax (über 13 Millionen Austausche, die auf agentisches Kodieren und Werkzeugorchestrierung abzielten).

Warum stellen Destillationsangriffe ein nationales Sicherheitsrisiko dar?

Illegitim destillierten Modellen fehlen die Sicherheitsleitplanken, die US-Unternehmen wie Anthropic in ihre Systeme einbauen. Diese ungeschützten Modelle können für offensive Cyberoperationen, Desinformationskampagnen, Massenüberwachung und sogar zur Unterstützung der Entwicklung von Biowaffen eingesetzt werden. Wenn destillierte Modelle quelloffen gemacht werden, verbreiten sich gefährliche Fähigkeiten außerhalb der Kontrolle einer einzelnen Regierung, was Exportkontrollen untergräbt, die darauf abzielen, Amerikas KI-Vorteil zu erhalten.

Wie haben DeepSeek, Moonshot und MiniMax auf Claude zugegriffen?

Die Labore umgingen die regionalen Zugangsbeschränkungen von Anthropic mithilfe kommerzieller Proxy-Dienste, die den Claude-API-Zugriff im großen Maßstab weiterverkaufen. Diese Dienste betreiben Hydra-Cluster-Architekturen mit weitverzweigten Netzwerken betrügerischer Konten, die über die Anthropic-API und Drittanbieter-Cloud-Plattformen verteilt sind. Ein Proxy-Netzwerk verwaltete mehr als 20.000 betrügerische Konten gleichzeitig und mischte Destillationsverkehr mit legitimen Anfragen, um einer Erkennung zu entgehen.

Wie reagiert Anthropic auf Destillationsangriffe?

Anthropic setzt mehrere Gegenmaßnahmen ein: Verhaltens-Fingerprinting-Klassifikatoren zur Erkennung von Destillationsmustern im API-Verkehr, Informationsaustausch mit anderen KI-Laboren und Cloud-Anbietern, verstärkte Kontoverifizierung und Modell-level-Sicherheitsvorkehrungen, die die Effizienz der Ausgabe für illegale Destillation reduzieren, ohne den Dienst für legitime Nutzer zu beeinträchtigen. Anthropic fordert außerdem koordinierte Reaktionen von Industrie und Politik.

Was hat DeepSeek speziell von Claude extrahiert?

DeepSeek zielte auf Claudes Schlussfolgerungsfähigkeiten, Aufgaben zur rubrikbasierten Bewertung (wodurch Claude als Belohnungsmodell für verstärkendes Lernen fungierte) und zensursichere Alternativen zu politisch sensiblen Anfragen ab. Sie verwendeten Techniken, die Claude aufforderten, seine interne Denkweise Schritt für Schritt zu artikulieren, wodurch im großen Maßstab Chain-of-Thought-Trainingsdaten generiert wurden. Anthropic verfolgte diese Konten zu spezifischen Forschern bei DeepSeek.

Anthropic deckt Destillationsangriffe von DeepSeek und MiniMax auf

Anthropic deckt Destillationskampagnen im industriellen Maßstab auf

Anthropic hat Beweise veröffentlicht, dass drei KI-Labore – DeepSeek, Moonshot AI und MiniMax – koordinierte Kampagnen durchgeführt haben, um Claudes Fähigkeiten durch illegale Destillation zu extrahieren. Die Kampagnen generierten über 16 Millionen Austausche mit Claude über ungefähr 24.000 betrügerische Konten, was gegen Anthropic's Nutzungsbedingungen und regionale Zugriffsbarrieren verstößt.

Destillation ist eine legitime Technik, bei der ein kleineres Modell anhand der Ausgaben eines stärkeren trainiert wird. Frontier-Labore destillieren regelmäßig ihre eigenen Modelle, um günstigere Versionen zu erstellen. Wenn Wettbewerber jedoch Destillation ohne Genehmigung nutzen, erlangen sie leistungsstarke Fähigkeiten zu einem Bruchteil der Kosten und der Zeit, die für eine unabhängige Entwicklung erforderlich wären.

Die Angriffe zielten auf Claudes differenzierteste Funktionen ab: agentisches Schlussfolgern, Werkzeugnutzung und Kodierung – dieselben Fähigkeiten, die Claude Opus 4.6 und Claude Sonnet 4.6 antreiben.

Umfang und Ziele jeder Kampagne

Labor	Austausche	Primäre Ziele
DeepSeek	150.000+	Schlussfolgerungsvermögen, Belohnungsmodell-Bewertung, Zensurumgehungen
Moonshot AI	3,4 Millionen+	Agentisches Schlussfolgern, Werkzeugnutzung, Computer Vision
MiniMax	13 Millionen+	Agentisches Kodieren, Werkzeugorchestrierung

DeepSeek nutzte eine bemerkenswerte Technik: Prompts, die Claude aufforderten, seine interne Denkweise Schritt für Schritt zu artikulieren, wodurch effektiv Chain-of-Thought-Trainingsdaten im großen Maßstab generiert wurden. Sie nutzten Claude auch, um zensursichere Alternativen zu politisch sensiblen Anfragen zu generieren – wahrscheinlich um ihre eigenen Modelle darauf zu trainieren, Konversationen von zensierten Themen wegzulenken. Anthropic verfolgte diese Konten zu spezifischen Forschern im Labor.

Moonshot AI (Kimi-Modelle) setzte Hunderte von betrügerischen Konten über mehrere Zugangspfade hinweg ein. In einer späteren Phase wechselte Moonshot zu einem zielgerichteteren Ansatz und versuchte, Claudes Denkspuren zu extrahieren und zu rekonstruieren.

MiniMax führte die größte Kampagne mit über 13 Millionen Austauschen durch. Anthropic entdeckte diese Kampagne, während sie noch aktiv war – bevor MiniMax das Modell veröffentlichte, das es trainierte. Als Anthropic während der aktiven Kampagne ein neues Modell veröffentlichte, schwenkte MiniMax innerhalb von 24 Stunden um und leitete fast die Hälfte ihres Datenverkehrs um, um die neuesten Fähigkeiten zu erfassen.

Wie Destillateure Zugangsbeschränkungen umgehen

Anthropic bietet in China keinen kommerziellen Claude-Zugriff aus Gründen der nationalen Sicherheit an. Die Labore umgingen dies durch kommerzielle Proxy-Dienste, die den Zugriff auf Frontier-Modelle im großen Maßstab weiterverkaufen.

Diese Dienste betreiben, was Anthropic "Hydra-Cluster"-Architekturen nennt: weitverzweigte Netzwerke betrügerischer Konten, die den Datenverkehr über die API und Drittanbieter-Cloud-Plattformen verteilen. Wenn ein Konto gesperrt wird, ersetzt ein neues es. Ein Proxy-Netzwerk verwaltete mehr als 20.000 betrügerische Konten gleichzeitig und mischte Destillationsverkehr mit nicht zusammenhängenden Kundenanfragen, um die Erkennung zu erschweren.

Was Destillation von normaler Nutzung unterscheidet, ist das Muster. Ein einzelner Prompt mag harmlos erscheinen, aber wenn Varianten zehntausende Male über Hunderte koordinierter Konten eintreffen, die alle auf dieselbe eng definierte Fähigkeit abzielen, wird das Muster deutlich.

Implikationen für die nationale Sicherheit

Illegitim destillierten Modellen fehlen die Sicherheitsleitplanken, die US-Unternehmen in Frontier-Systeme einbauen. Diese Leitplanken verhindern, dass KI zur Entwicklung von Biowaffen, zur Durchführung offensiver Cyberoperationen oder zur Massenüberwachung eingesetzt wird.

Modelle, die durch illegitime Destillation erstellt werden, werden diese Schutzmaßnahmen wahrscheinlich nicht beibehalten. Ausländische Labore können ungeschützte Fähigkeiten in militärische, nachrichtendienstliche und Überwachungssysteme einspeisen. Wenn destillierte Modelle quelloffen sind, verbreiten sich gefährliche Fähigkeiten frei außerhalb der Kontrolle jeder Regierung.

Destillationsangriffe untergraben auch die US-Exportkontrollen. Ohne Einblick in diese Angriffe können die scheinbar schnellen Fortschritte dieser Labore fälschlicherweise als Beweis für die Ineffektivität der Exportkontrollen interpretiert werden. In Wirklichkeit hängen die Fortschritte von Fähigkeiten ab, die aus amerikanischen Modellen extrahiert wurden, und die Durchführung der Extraktion im großen Maßstab erfordert die fortschrittlichen Chips, die Exportkontrollen einschränken sollen.

Anthropic's Gegenmaßnahmen

Anthropic setzt mehrere Abwehrmaßnahmen gegen Destillationsangriffe ein:

Erkennungsklassifikatoren: Verhaltens-Fingerprinting-Systeme, die Destillationsmuster im API-Verkehr identifizieren, einschließlich der Elicitation von Denkketten, die zum Aufbau von Reasoning-Trainingsdaten verwendet wird
Informationsaustausch: Technische Indikatoren, die mit anderen KI-Laboren, Cloud-Anbietern und relevanten Behörden geteilt werden, um ein ganzheitliches Bild der Destillationslandschaft zu erhalten
Zugangskontrollen: Verstärkte Verifizierung für Bildungskonten, Sicherheitsforschungsprogramme und Startup-Organisationen – die am häufigsten ausgenutzten Wege
Sicherheitsvorkehrungen auf Modellebene: Produkt-, API- und modellbasierte Gegenmaßnahmen, die darauf abzielen, die Ausgabe-Effizienz für illegitime Destillation zu reduzieren, ohne die legitime Nutzung zu beeinträchtigen

Anthropic hat diese Erkenntnisse auch mit seiner früheren Unterstützung für Claude Code Security-Fähigkeiten für Verteidiger verknüpft, als Teil einer breiteren Strategie, um sicherzustellen, dass Frontier-KI-Fähigkeiten geschützt bleiben.

Branchenweite Reaktion erforderlich

Anthropic betont, dass kein einzelnes Unternehmen Destillationsangriffe allein lösen kann. Die Kampagnen nutzen kommerzielle Proxy-Dienste, Drittanbieter-Cloud-Plattformen und Lücken in der Kontoverifizierung aus, die das gesamte KI-Ökosystem umfassen.

Die wachsende Intensität und Raffinesse dieser Kampagnen verengt das Zeitfenster zum Handeln. Anthropic hat beobachtet, dass Destillateure sich schnell anpassen: Wenn neue Modelle veröffentlicht werden, ändern sich die Extraktionsbemühungen innerhalb von Stunden. Wenn Konten gesperrt werden, ersetzen Proxy-Netzwerke diese sofort durch Hydra-Cluster-Architekturen ohne Single Point of Failure.

Die Bewältigung der Bedrohung erfordert koordiniertes Handeln von KI-Unternehmen, Cloud-Anbietern und politischen Entscheidungsträgern. Anthropic veröffentlichte seine Ergebnisse, um die Beweise allen Beteiligten zugänglich zu machen, die ein Interesse daran haben, Frontier-KI-Fähigkeiten vor unautorisierter Extraktion zu schützen. Das Unternehmen fordert branchenweite Standards für die Kontoverifizierung, gemeinsame Rahmenwerke für die Bedrohungsanalyse und politische Unterstützung für die Durchsetzung gegen illegale Destillation im großen Maßstab.