מהן מתקפות דיסטילציה של AI?

מתקפות דיסטילציה של AI כרוכות באימון מודל פחות חזק על הפלטים של מודל חזק יותר ללא אישור. מתחרים יוצרים כמויות אדירות של הנחיות מתוחכמות כדי לחלץ יכולות ספציפיות ממודל חלוצי, ולאחר מכן משתמשים בתגובות לאימון המערכות שלהם. Anthropic זיהתה למעלה מ-16 מיליון חילופי נתונים בלתי חוקיים בכ-24,000 חשבונות הונאה ששימשו את DeepSeek, Moonshot ו-MiniMax כדי לחלץ את יכולות Claude.

אילו חברות ביצעו דיסטילציה ליכולות של Claude?

Anthropic זיהתה שלוש מעבדות AI סיניות שניהלו קמפיינים דיסטילציה בקנה מידה תעשייתי: DeepSeek (למעלה מ-150,000 חילופים שהתמקדו בהיגיון ופתרונות עקיפים לצנזורה), Moonshot AI (למעלה מ-3.4 מיליון חילופים שהתמקדו בהיגיון אג'נטי ושימוש בכלים), ו-MiniMax (למעלה מ-13 מיליון חילופים שהתמקדו בקידוד אג'נטי ותזמור כלים).

מדוע מתקפות דיסטילציה מהוות סיכון ביטחון לאומי?

למודלים שעברו דיסטילציה באופן בלתי חוקי חסרות מעקות הבטיחות שחברות אמריקאיות כמו Anthropic בונות במערכות שלהן. מודלים בלתי מוגנים אלה יכולים להיות פרוסים לפעולות סייבר התקפיות, קמפייני דיסאינפורמציה, מעקב המוני, ואף תמיכה בפיתוח נשק ביולוגי. אם מודלים שעברו דיסטילציה יהפכו לקוד פתוח, יכולות מסוכנות יתפשטו מעבר לשליטתו של ממשל כלשהו, ויערערו את בקרות הייצוא שנועדו לשמר את יתרונה של אמריקה בתחום ה-AI.

כיצד DeepSeek, Moonshot ו-MiniMax השיגו גישה ל-Claude?

המעבדות עקפו את מגבלות הגישה האזוריות של Anthropic באמצעות שירותי פרוקסי מסחריים שמוכרים מחדש גישת API ל-Claude בקנה מידה רחב. שירותים אלה מפעילים ארכיטקטורות 'צבירי הידרה' עם רשתות נרחבות של חשבונות הונאה המפוזרים על פני ה-API של Anthropic ופלטפורמות ענן צד שלישי. רשת פרוקסי אחת ניהלה למעלה מ-20,000 חשבונות הונאה בו-זמנית, תוך ערבוב תעבורת דיסטילציה עם בקשות לגיטימיות כדי למנוע זיהוי.

כיצד Anthropic מגיבה למתקפות דיסטילציה?

Anthropic פורסת אמצעי נגד מרובים: מסווגי טביעות אצבע התנהגותיות לזיהוי דפוסי דיסטילציה בתעבורת ה-API, שיתוף מודיעין עם מעבדות AI וספקי ענן אחרים, אימות חשבונות מחוזק, ואמצעי הגנה ברמת המודל שמפחיתים את יעילות הפלט עבור דיסטילציה בלתי חוקית מבלי לפגוע בשירות למשתמשים לגיטימיים. Anthropic גם קוראת לתגובות מתואמות של התעשייה והמדיניות.

מה בדיוק חילצה DeepSeek מ-Claude?

DeepSeek התמקדה ביכולות ההיגיון של Claude, משימות דירוג מבוססות רובריקה (שהפכו את Claude למודל תגמול ללמידת חיזוק), ואלטרנטיבות בטוחות לצנזורה לשאילתות רגישות פוליטית. הם השתמשו בטכניקות שביקשו מ-Claude לבטא את ההיגיון הפנימי שלה צעד אחר צעד, ובכך יצרו נתוני אימון מסוג 'שרשרת מחשבות' בקנה מידה גדול. Anthropic איתרה חשבונות אלה לחוקרים ספציפיים ב-DeepSeek.

Anthropic חושפת מתקפות דיסטילציה של DeepSeek ו-MiniMax

Anthropic חושפת קמפייני דיסטילציה בקנה מידה תעשייתי

Anthropic פרסמה עדויות לכך ששלוש מעבדות AI — DeepSeek, Moonshot AI ו-MiniMax — ניהלו קמפיינים מתואמים כדי לחלץ את יכולות Claude באמצעות דיסטילציה בלתי חוקית. הקמפיינים יצרו למעלה מ-16 מיליון חילופים עם Claude באמצעות כ-24,000 חשבונות הונאה, תוך הפרה של תנאי השירות והגבלות הגישה האזוריות של Anthropic.

דיסטילציה היא טכניקה לגיטימית שבה מודל קטן יותר מאומן על פלטים של מודל חזק יותר. מעבדות חלוציות מבצעות באופן קבוע דיסטילציה למודלים שלהן כדי ליצור גרסאות זולות יותר. אך כאשר מתחרים משתמשים בדיסטילציה ללא אישור, הם רוכשים יכולות חזקות בשבריר מהעלות והזמן הנדרשים לפיתוח עצמאי.

המתקפות כוונו ליכולות המובחנות ביותר של Claude: היגיון אג'נטי, שימוש בכלים וקידוד — אותן יכולות שמפעילות את Claude Opus 4.6 ואת Claude Sonnet 4.6.

קנה המידה והיעדים של כל קמפיין

מעבדה	חילופים	יעדים עיקריים
DeepSeek	150,000+	היגיון, דירוג מודל תגמול, פתרונות עקיפים לצנזורה
Moonshot AI	3.4 מיליון+	היגיון אג'נטי, שימוש בכלים, ראייה ממוחשבת
MiniMax	13 מיליון+	קידוד אג'נטי, תזמור כלים

DeepSeek השתמשו בטכניקה בולטת: הנחיות שביקשו מ-Claude לבטא את ההיגיון הפנימי שלה צעד אחר צעד, ובכך יצרו למעשה נתוני אימון מסוג 'שרשרת מחשבות' בקנה מידה גדול. הם גם השתמשו ב-Claude כדי ליצור אלטרנטיבות בטוחות לצנזורה לשאילתות רגישות פוליטית — ככל הנראה כדי לאמן את המודלים שלהם להסיט שיחות מנושאים מצונזרים. Anthropic איתרה חשבונות אלה לחוקרים ספציפיים במעבדה.

Moonshot AI (מודלי Kimi) העסיקה מאות חשבונות הונאה על פני מספר מסלולי גישה. בשלב מאוחר יותר, Moonshot עברה לגישה ממוקדת יותר, בניסיון לחלץ ולשחזר את עקבות ההיגיון של Claude.

MiniMax ניהלה את הקמפיין הגדול ביותר עם למעלה מ-13 מיליון חילופים. Anthropic זיהתה את הקמפיין הזה בעודו פעיל — לפני ש-MiniMax שחררה את המודל שהיא אימנה. כאשר Anthropic שחררה מודל חדש במהלך הקמפיין הפעיל, MiniMax ביצעה מפנה תוך 24 שעות, והפנתה כמעט מחצית מהתעבורה שלה כדי ללכוד את היכולות העדכניות ביותר.

כיצד מבצעי הדיסטילציה עוקפים הגבלות גישה

Anthropic אינה מציעה גישה מסחרית ל-Claude בסין מסיבות של ביטחון לאומי. המעבדות עקפו זאת באמצעות שירותי פרוקסי מסחריים שמוכרים מחדש גישה למודל חלוצי בקנה מידה גדול.

שירותים אלה מפעילים את מה ש-Anthropic מכנה ארכיטקטורות "צבירי הידרה": רשתות נרחבות של חשבונות הונאה שמפזרות תעבורה על פני ה-API ופלטפורמות ענן צד שלישי. כאשר חשבון אחד נחסם, חדש מחליף אותו. רשת פרוקסי אחת ניהלה למעלה מ-20,000 חשבונות הונאה בו-זמנית, תוך ערבוב תעבורת דיסטילציה עם בקשות לקוחות בלתי קשורות כדי להקשות על הזיהוי.

מה שמבחין בין דיסטילציה לשימוש רגיל הוא הדפוס. הנחיה בודדת עשויה להיראות תמימה, אך כאשר וריאציות מגיעות עשרות אלפי פעמים על פני מאות חשבונות מתואמים, כולם מכוונים לאותה יכולת צרה, הדפוס מתבהר.

השלכות ביטחון לאומי

למודלים שעברו דיסטילציה באופן בלתי חוקי חסרות מעקות הבטיחות שחברות אמריקאיות בונות במערכות חלוציות. מעקות בטיחות אלה מונעים שימוש ב-AI לפיתוח נשק ביולוגי, ביצוע פעולות סייבר התקפיות, או הפעלת מעקב המוני.

מודלים שנבנו באמצעות דיסטילציה בלתי חוקית אינם צפויים לשמור על הגנות אלה. מעבדות זרות יכולות להזין יכולות בלתי מוגנות למערכות צבאיות, מודיעיניות ומעקב. אם מודלים שעברו דיסטילציה יהפכו לקוד פתוח, יכולות מסוכנות יתפשטו בחופשיות מעבר לשליטתו של ממשל כלשהו.

מתקפות דיסטילציה גם מערערות את בקרות הייצוא האמריקאיות. ללא נראות למתקפות אלה, ההתקדמות המהירה לכאורה של מעבדות אלה יכולה להתפרש באופן שגוי כראיה לכך שבקרות הייצוא אינן יעילות. במציאות, ההתקדמות תלויה ביכולות שנחצבו ממודלים אמריקאיים, וביצוע חילוץ בקנה מידה גדול דורש את השבבים המתקדמים שבקרות הייצוא נועדו להגביל.

אמצעי הנגד של Anthropic

Anthropic פורסת הגנות מרובות נגד מתקפות דיסטילציה:

מסווגי זיהוי: מערכות טביעת אצבע התנהגותיות המזהות דפוסי דיסטילציה בתעבורת ה-API, כולל הפקת "שרשרת מחשבות" המשמשת לבניית נתוני אימון היגיון.
שיתוף מודיעין: אינדיקטורים טכניים המשותפים עם מעבדות AI וספקי ענן אחרים ורשויות רלוונטיות לתמונה הוליסטית של נוף הדיסטילציה.
בקרות גישה: אימות מחוזק לחשבונות חינוכיים, תוכניות מחקר אבטחה וארגוני סטארט-אפ — המסלולים המנוצלים לרוב.
אמצעי הגנה ברמת המודל: אמצעי נגד ברמת המוצר, ה-API והמודל, שנועדו להפחית את יעילות הפלט עבור דיסטילציה בלתי חוקית מבלי לפגוע בשימוש לגיטימי.

Anthropic גם קשרה ממצאים אלה לתמיכתה המוקדמת ב- אבטחת קוד Claude עבור מגינים, כחלק מאסטרטגיה רחבה יותר להבטיח שיכולות ה-AI החלוציות יישארו מוגנות.

נדרשת תגובה רוחבית של התעשייה

Anthropic מדגישה שאף חברה בודדת אינה יכולה לפתור מתקפות דיסטילציה לבדה. הקמפיינים מנצלים שירותי פרוקסי מסחריים, פלטפורמות ענן צד שלישי, ופערים באימות חשבונות המשתרעים על פני כל מערכת ה-AI האקולוגית.

העוצמה והתחכום הגוברים של קמפיינים אלה מצמצמים את חלון הזמן לפעולה. Anthropic הבחינה כי מבצעי הדיסטילציה מסתגלים במהירות: כאשר מודלים חדשים משוחררים, מאמצי החילוץ משתנים תוך שעות. כאשר חשבונות נחסמים, רשתות הפרוקסי מחליפות אותם מיד באמצעות ארכיטקטורות "צבירי הידרה" ללא נקודת כשל בודדת.

טיפול באיום דורש פעולה מתואמת בין חברות AI, ספקי ענן וקובעי מדיניות. Anthropic פרסמה את ממצאיה כדי להפוך את העדויות לזמינות לכל מי שיש לו עניין בהגנה על יכולות AI חלוציות מפני חילוץ בלתי מורשה. החברה קוראת לסטנדרטים רוחביים בתעשייה בנושאי אימות חשבונות, מסגרות שיתוף מודיעין איומים, ותמיכה מדיניות לאכיפה נגד דיסטילציה בלתי חוקית בקנה מידה גדול.