Anthropic DeepSeek மற்றும் MiniMax நிறுவனங்களின் டிஸ்டிலேஷன் தாக்குதல்களை அம்பலப்படுத்துகிறது

Anthropic தொழில்துறை அளவிலான டிஸ்டிலேஷன் பிரச்சாரங்களை வெளிப்படுத்துகிறது

DeepSeek, Moonshot AI மற்றும் MiniMax ஆகிய மூன்று AI ஆய்வகங்கள், சட்டவிரோத டிஸ்டிலேஷன் மூலம் Claude-இன் திறன்களைப் பிரித்தெடுக்க ஒருங்கிணைந்த பிரச்சாரங்களை நடத்தியதற்கான ஆதாரத்தை Anthropic வெளியிட்டுள்ளது. இந்தக் பிரச்சாரங்கள் சுமார் 24,000 மோசடியான கணக்குகள் மூலம் Claude உடன் 16 மில்லியனுக்கும் அதிகமான பரிமாற்றங்களை உருவாக்கின, இது Anthropic-இன் சேவை விதிமுறைகளையும் பிராந்திய அணுகல் கட்டுப்பாடுகளையும் மீறுகிறது.

டிஸ்டிலேஷன் என்பது ஒரு முறையான நுட்பமாகும், இதில் சிறிய ஒரு மாதிரி, வலுவான ஒன்றின் வெளியீடுகளைக் கொண்டு பயிற்சி அளிக்கப்படுகிறது. முன்னணி ஆய்வகங்கள் தங்கள் சொந்த மாதிரிகளை மலிவான பதிப்புகளை உருவாக்க தொடர்ந்து டிஸ்டில் செய்கின்றன. ஆனால் போட்டியாளர்கள் அங்கீகாரம் இல்லாமல் டிஸ்டிலேஷனைப் பயன்படுத்தும் போது, அவர்கள் சுயாதீன மேம்பாட்டிற்குத் தேவைப்படும் செலவு மற்றும் நேரத்தில் ஒரு சிறு பகுதியில் சக்திவாய்ந்த திறன்களைப் பெறுகிறார்கள்.

இந்தத் தாக்குதல்கள் Claude-இன் மிகவும் தனித்துவமான அம்சங்களை இலக்காகக் கொண்டன: ஏஜென்டிக் பகுத்தறிவு, கருவிப் பயன்பாடு மற்றும் கோடிங் — இவைதான் Claude Opus 4.6 மற்றும் Claude Sonnet 4.6 ஆகியவற்றிற்கு சக்தி அளிக்கும் அதே திறன்கள்.

ஒவ்வொரு பிரச்சாரத்தின் அளவும் இலக்குகளும்

ஆய்வகம்	பரிமாற்றங்கள்	முக்கிய இலக்குகள்
DeepSeek	150,000+	பகுத்தறிவு, வெகுமதி-மாதிரி தரப்படுத்தல், தணிக்கைத் தப்பிக்கும் வழிகள்
Moonshot AI	3.4 மில்லியனுக்கும் மேல்	ஏஜென்டிக் பகுத்தறிவு, கருவிப் பயன்பாடு, கணினிப் பார்வை
MiniMax	13 மில்லியனுக்கும் மேல்	ஏஜென்டிக் கோடிங், கருவி ஒருங்கிணைப்பு

DeepSeek ஒரு குறிப்பிடத்தக்க நுட்பத்தைப் பயன்படுத்தியது: Claude-ஐ அதன் உள் பகுத்தறிவை படிபடியாக வெளிப்படுத்துமாறு கேட்கும் ப்ராம்ப்ட்கள், இதன் மூலம் பெரிய அளவில் 'சங்கிலித்தொடர் சிந்தனை' பயிற்சி தரவை திறம்பட உருவாக்கியது. அரசியல் ரீதியாக உணர்வுபூர்வமான கேள்விகளுக்கு தணிக்கை-பாதுகாப்பான மாற்று வழிகளை உருவாக்கவும் அவர்கள் Claude-ஐப் பயன்படுத்தினர் — இது தணிக்கை செய்யப்பட்ட தலைப்புகளிலிருந்து உரையாடல்களைத் திசைதிருப்ப தங்கள் சொந்த மாதிரிகளுக்குப் பயிற்சி அளிக்கவே ஆகும். Anthropic இந்த கணக்குகளை ஆய்வகத்தில் உள்ள குறிப்பிட்ட ஆராய்ச்சியாளர்களிடம் கண்டறிந்தது.

Moonshot AI (Kimi மாதிரிகள்) பல அணுகல் வழிகள் முழுவதும் நூற்றுக்கணக்கான மோசடியான கணக்குகளைப் பயன்படுத்தியது. ஒரு பிந்தைய கட்டத்தில், Moonshot மிகவும் இலக்கு சார்ந்த அணுகுமுறைக்கு மாறியது, Claude-இன் பகுத்தறிவு தடயங்களைப் பிரித்தெடுத்து மீண்டும் உருவாக்க முயற்சித்தது.

MiniMax 13 மில்லியனுக்கும் அதிகமான பரிமாற்றங்களுடன் மிகப்பெரிய பிரச்சாரத்தை நடத்தியது. Anthropic இந்தப் பிரச்சாரம் செயலில் இருக்கும்போதே — MiniMax அது பயிற்சி அளித்த மாதிரியை வெளியிடுவதற்கு முன்பே — அதைக் கண்டறிந்தது. செயலில் உள்ள பிரச்சாரத்தின் போது Anthropic ஒரு புதிய மாதிரியை வெளியிட்டபோது, MiniMax 24 மணி நேரத்திற்குள் மாறியது, அதன் போக்குவரத்தில் கிட்டத்தட்ட பாதியை புதிய திறன்களைப் பிடிக்கத் திசைதிருப்பியது.

டிஸ்டில் செய்பவர்கள் அணுகல் கட்டுப்பாடுகளை எவ்வாறு கடந்து செல்கிறார்கள்

தேசிய பாதுகாப்பு காரணங்களுக்காக Anthropic சீனாவில் வணிக ரீதியான Claude அணுகலை வழங்குவதில்லை. இந்த ஆய்வகங்கள், முன்னணி மாதிரி அணுகலை பெருமளவில் மீண்டும் விற்கும் வணிக ப்ராக்ஸி சேவைகள் மூலம் இதைத் தவிர்த்தன.

இந்தச் சேவைகள், Anthropic "ஹைட்ரா கிளஸ்டர்" கட்டமைப்புகள் என்று அழைப்பதை இயக்குகின்றன: API மற்றும் மூன்றாம் தரப்பு கிளவுட் தளங்களில் போக்குவரத்தைப் பிரிக்கும் மோசடியான கணக்குகளின் விரிந்த நெட்வொர்க்குகள். ஒரு கணக்கு தடை செய்யப்பட்டால், ஒரு புதிய கணக்கு அதை மாற்றுகிறது. ஒரு ப்ராக்ஸி நெட்வொர்க் 20,000-க்கும் மேற்பட்ட மோசடியான கணக்குகளை ஒரே நேரத்தில் நிர்வகித்து, கண்டறிதலைக் கடினமாக்க, டிஸ்டிலேஷன் போக்குவரத்தை தொடர்பில்லாத வாடிக்கையாளர் கோரிக்கைகளுடன் கலந்தது.

சாதாரண பயன்பாட்டிலிருந்து டிஸ்டிலேஷனை வேறுபடுத்துவது அதன் வடிவமே. ஒரு ஒற்றை ப்ராம்ப்ட் தீங்கற்றதாகத் தோன்றலாம், ஆனால் ஒரே குறுகிய திறனை இலக்காகக் கொண்டு, நூற்றுக்கணக்கான ஒருங்கிணைந்த கணக்குகள் வழியாக பல்லாயிரக்கணக்கான முறை மாறுபாடுகள் வரும்போது, அந்த வடிவம் தெளிவாகிறது.

தேசிய பாதுகாப்புத் தாக்கங்கள்

சட்டவிரோதமாக டிஸ்டில் செய்யப்பட்ட மாதிரிகளில், அமெரிக்க நிறுவனங்கள் முன்னணி அமைப்புகளில் உருவாக்கும் பாதுகாப்புப் பண்கள் இல்லை. இந்த பாதுகாப்புப் பண்கள் AI-ஐ உயிரியல் ஆயுதங்களை உருவாக்க, தாக்குதல் சைபர் செயல்பாடுகளை மேற்கொள்ள, அல்லது பெரிய அளவிலான கண்காணிப்பை செயல்படுத்தப் பயன்படுத்துவதைத் தடுக்கின்றன.

சட்டவிரோத டிஸ்டிலேஷன் மூலம் உருவாக்கப்பட்ட மாதிரிகள் அந்தப் பாதுகாப்புகளைத் தக்கவைத்துக் கொள்ள வாய்ப்பில்லை. வெளிநாட்டு ஆய்வகங்கள் பாதுகாப்பற்ற திறன்களை ராணுவம், உளவுத்துறை மற்றும் கண்காணிப்பு அமைப்புகளுக்குள் செலுத்த முடியும். டிஸ்டில் செய்யப்பட்ட மாதிரிகள் திறந்த மூலமாக வெளியிடப்பட்டால், ஆபத்தான திறன்கள் எந்த ஒரு அரசாங்கத்தின் கட்டுப்பாட்டையும் மீறி சுதந்திரமாகப் பரவும்.

டிஸ்டிலேஷன் தாக்குதல்கள் அமெரிக்க ஏற்றுமதி கட்டுப்பாடுகளையும் குறைமதிப்பிற்கு உட்படுத்துகின்றன. இந்தத் தாக்குதல்களைப் பற்றிய தெளிவான பார்வை இல்லாமல், இந்த ஆய்வகங்களின் வெளிப்படையான விரைவான முன்னேற்றங்கள், ஏற்றுமதி கட்டுப்பாடுகள் பயனற்றவை என்பதற்கான ஆதாரமாக தவறாகப் புரிந்து கொள்ளப்படலாம். உண்மையில், இந்த முன்னேற்றங்கள் அமெரிக்க மாதிரிகளிலிருந்து பிரித்தெடுக்கப்பட்ட திறன்களைச் சார்ந்துள்ளன, மேலும் பெரிய அளவில் பிரித்தெடுப்பதை செயல்படுத்துவதற்கு, ஏற்றுமதி கட்டுப்பாடுகள் தடை செய்ய வடிவமைக்கப்பட்ட மேம்பட்ட சிப்கள் தேவை.

Anthropic-இன் எதிர் நடவடிக்கைகள்

Anthropic டிஸ்டிலேஷன் தாக்குதல்களுக்கு எதிராக பல பாதுகாப்புகளைப் பயன்படுத்துகிறது:

கண்டறிதல் வகைப்படுத்திகள்: API போக்குவரத்தில் டிஸ்டிலேஷன் வடிவங்களைக் கண்டறியும் நடத்தை ரீதியான கைரேகை அமைப்புகள், பகுத்தறிவு பயிற்சி தரவுகளை உருவாக்கப் பயன்படுத்தப்படும் 'சங்கிலித்தொடர் சிந்தனை' தூண்டுதல் உட்பட
உளவுத்துறைப் பகிர்வு: டிஸ்டிலேஷன் சூழலின் முழுமையான படத்தைப் பெற, பிற AI ஆய்வகங்கள், கிளவுட் வழங்குநர்கள் மற்றும் சம்பந்தப்பட்ட அதிகாரிகளுடன் பகிரப்படும் தொழில்நுட்பக் குறிகாட்டிகள்
அணுகல் கட்டுப்பாடுகள்: கல்விசார் கணக்குகள், பாதுகாப்பு ஆராய்ச்சி திட்டங்கள் மற்றும் ஸ்டார்ட்அப் நிறுவனங்களுக்கான சரிபார்ப்பை வலுப்படுத்துதல் — இவைதான் பொதுவாக சுரண்டப்படும் வழிகள்
மாதிரி-நிலை பாதுகாப்புகள்: சட்டவிரோத டிஸ்டிலேஷனுக்கான வெளியீட்டு செயல்திறனைக் குறைக்கும் வகையில் வடிவமைக்கப்பட்ட தயாரிப்பு, API மற்றும் மாதிரி-நிலை எதிர் நடவடிக்கைகள், முறையான பயன்பாட்டைச் சிதைக்காமல்

Anthropic இந்த கண்டுபிடிப்புகளை, பாதுகாவலர்களுக்கான Claude குறியீட்டு பாதுகாப்பு திறன்களுக்கான அதன் முந்தைய ஆதரவுடன் இணைத்துள்ளது, இது முன்னணி AI திறன்கள் பாதுகாக்கப்படுவதை உறுதி செய்வதற்கான ஒரு பரந்த உத்தியின் ஒரு பகுதியாகும்.

தொழில் அளவிலான பதில் தேவை

டிஸ்டிலேஷன் தாக்குதல்களை எந்த ஒரு நிறுவனமும் தனியாகத் தீர்க்க முடியாது என்பதை Anthropic வலியுறுத்துகிறது. இந்தக் பிரச்சாரங்கள் வணிக ப்ராக்ஸி சேவைகள், மூன்றாம் தரப்பு கிளவுட் தளங்கள் மற்றும் கணக்கு சரிபார்ப்பில் உள்ள இடைவெளிகள் ஆகியவற்றைச் சுரண்டுகின்றன, இவை முழு AI சூழல் முழுவதும் பரவியுள்ளன.

இந்த பிரச்சாரங்களின் அதிகரித்து வரும் தீவிரம் மற்றும் நுட்பம் செயல்படுவதற்கான வாய்ப்பை குறைக்கிறது. டிஸ்டில் செய்பவர்கள் வேகமாகத் தங்களை மாற்றிக்கொள்வதை Anthropic கவனித்துள்ளது: புதிய மாதிரிகள் வெளியிடப்படும்போது, பிரித்தெடுக்கும் முயற்சிகள் சில மணிநேரங்களுக்குள் திசைதிருப்பப்படுகின்றன. கணக்குகள் தடை செய்யப்பட்டால், ப்ராக்ஸி நெட்வொர்க்குகள், தோல்விக்கான ஒற்றைப் புள்ளி இல்லாத ஹைட்ரா கிளஸ்டர் கட்டமைப்புகள் மூலம் உடனடியாக அவற்றை மாற்றுகின்றன.

இந்த அச்சுறுத்தலைச் சமாளிக்க AI நிறுவனங்கள், கிளவுட் வழங்குநர்கள் மற்றும் கொள்கை வகுப்பாளர்கள் இடையே ஒருங்கிணைந்த நடவடிக்கை தேவை. அங்கீகரிக்கப்படாத பிரித்தெடுப்பிலிருந்து முன்னணி AI திறன்களைப் பாதுகாப்பதில் ஆர்வம் உள்ள அனைவருக்கும் இந்த ஆதாரங்களை கிடைக்கச் செய்ய Anthropic தனது கண்டுபிடிப்புகளை வெளியிட்டுள்ளது. கணக்கு சரிபார்ப்பு குறித்த தொழில் அளவிலான தரநிலைகள், பகிரப்பட்ட அச்சுறுத்தல் உளவுத்துறை கட்டமைப்பு மற்றும் பெரிய அளவிலான சட்டவிரோத டிஸ்டிலேஷனுக்கு எதிரான அமலாக்கத்திற்கான கொள்கை ஆதரவு ஆகியவற்றுக்கு நிறுவனம் அழைப்பு விடுக்கிறது.

அசல் மூலம்

https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks

அடிக்கடி கேட்கப்படும் கேள்விகள்

AI டிஸ்டிலேஷன் தாக்குதல்கள் என்றால் என்ன?

AI டிஸ்டிலேஷன் தாக்குதல்கள் என்பது, அங்கீகாரம் இல்லாமல், குறைவான திறன்கொண்ட ஒரு மாதிரியை, வலுவான ஒன்றின் வெளியீடுகளைக் கொண்டு பயிற்சி செய்வதைக் குறிக்கிறது. போட்டியாளர்கள், ஒரு முன்னணி மாதிரியிலிருந்து குறிப்பிட்ட திறன்களைப் பிரித்தெடுக்க, மிகப்பெரிய அளவில் கவனமாக வடிவமைக்கப்பட்ட ப்ராம்ப்ட்களை உருவாக்குகிறார்கள், பின்னர் அந்தப் பதில்களைத் தங்கள் சொந்த அமைப்புகளுக்குப் பயிற்சி அளிக்கப் பயன்படுத்துகிறார்கள். DeepSeek, Moonshot மற்றும் MiniMax ஆகிய நிறுவனங்கள் Claude-இன் திறன்களைப் பிரித்தெடுக்கப் பயன்படுத்திய சுமார் 24,000 மோசடியான கணக்குகள் மூலம் 16 மில்லியனுக்கும் அதிகமான சட்டவிரோதப் பரிமாற்றங்களை Anthropic கண்டறிந்துள்ளது.

Claude-இன் திறன்களை எந்த நிறுவனங்கள் டிஸ்டில் செய்தன?

Anthropic மூன்று சீன AI ஆய்வகங்கள் தொழில்துறை அளவிலான டிஸ்டிலேஷன் பிரச்சாரங்களை நடத்துவதைக் கண்டறிந்துள்ளது: DeepSeek (150,000-க்கும் மேற்பட்ட பரிமாற்றங்கள், பகுத்தறிவு மற்றும் தணிக்கைத் தப்பிக்கும் வழிகளை இலக்காகக் கொண்டது), Moonshot AI (3.4 மில்லியனுக்கும் அதிகமான பரிமாற்றங்கள், ஏஜென்டிக் பகுத்தறிவு மற்றும் கருவிப் பயன்பாட்டை இலக்காகக் கொண்டது), மற்றும் MiniMax (13 மில்லியனுக்கும் அதிகமான பரிமாற்றங்கள், ஏஜென்டிக் கோடிங் மற்றும் கருவி ஒருங்கிணைப்பை இலக்காகக் கொண்டது).

டிஸ்டிலேஷன் தாக்குதல்கள் ஏன் ஒரு தேசிய பாதுகாப்பு அச்சுறுத்தல்?

சட்டவிரோதமாக டிஸ்டில் செய்யப்பட்ட மாதிரிகளில், Anthropic போன்ற அமெரிக்க நிறுவனங்கள் தங்கள் அமைப்புகளில் உருவாக்கும் பாதுகாப்புப் பண்கள் இல்லை. இந்தப் பாதுகாப்பற்ற மாதிரிகள் தாக்குதல் சைபர் செயல்பாடுகள், தவறான தகவல் பரப்புதல் பிரச்சாரங்கள், பெரிய அளவிலான கண்காணிப்பு மற்றும் உயிரியல் ஆயுத மேம்பாட்டு ஆதரவிற்குக் கூட பயன்படுத்தப்படலாம். டிஸ்டில் செய்யப்பட்ட மாதிரிகள் திறந்த மூலமாக (open-sourced) வெளியிடப்பட்டால், ஆபத்தான திறன்கள் எந்த ஒரு அரசாங்கத்தின் கட்டுப்பாட்டையும் மீறி பரவும், மேலும் அமெரிக்காவின் AI நன்மையை நிலைநிறுத்த வடிவமைக்கப்பட்ட ஏற்றுமதி கட்டுப்பாடுகளையும் குறைமதிப்பிற்கு உட்படுத்தும்.

DeepSeek, Moonshot மற்றும் MiniMax ஆகியவை Claude-ஐ எவ்வாறு அணுகின?

இந்த ஆய்வகங்கள், Anthropic-இன் பிராந்திய அணுகல் கட்டுப்பாடுகளை, வணிக ப்ராக்ஸி சேவைகளைப் பயன்படுத்தி மீறின. இந்தச் சேவைகள் Claude API அணுகலை பெருமளவில் மீண்டும் விற்றன. இந்தச் சேவைகள், Anthropic-இன் API மற்றும் மூன்றாம் தரப்பு கிளவுட் தளங்களில் பரவிக் கிடக்கும் மோசடியான கணக்குகளின் விரிந்த நெட்வொர்க்குகளுடன் 'ஹைட்ரா கிளஸ்டர்' கட்டமைப்புகளை இயக்குகின்றன. ஒரு ப்ராக்ஸி நெட்வொர்க் 20,000-க்கும் மேற்பட்ட மோசடியான கணக்குகளை ஒரே நேரத்தில் நிர்வகித்து, கண்டறிதலைத் தவிர்க்க, டிஸ்டிலேஷன் போக்குவரத்தை முறையான கோரிக்கைகளுடன் கலந்தது.

டிஸ்டிலேஷன் தாக்குதல்களுக்கு Anthropic எவ்வாறு பதிலளிக்கிறது?

Anthropic பல எதிர் நடவடிக்கைகளை மேற்கொள்கிறது: API போக்குவரத்தில் டிஸ்டிலேஷன் வடிவங்களைக் கண்டறிய நடத்தை ரீதியான கைரேகை வகைப்படுத்திகள் (behavioral fingerprinting classifiers), பிற AI ஆய்வகங்கள் மற்றும் கிளவுட் வழங்குநர்களுடன் உளவுத்துறைப் பகிர்வு, கணக்கு சரிபார்ப்பை வலுப்படுத்துதல், மற்றும் சட்டவிரோத டிஸ்டிலேஷனுக்கான வெளியீட்டு செயல்திறனைக் குறைக்கும் மாதிரி-நிலை பாதுகாப்புகள் (model-level safeguards), முறையான பயனர்களுக்கான சேவையைச் சிதைக்காமல். Anthropic ஒருங்கிணைந்த தொழில் மற்றும் கொள்கை சார்ந்த பதில்களுக்கும் அழைப்பு விடுக்கிறது.

DeepSeek Claude-இலிருந்து குறிப்பாக எதைப் பிரித்தெடுத்தது?

DeepSeek, Claude-இன் பகுத்தறிவுத் திறன்கள், ரூப்ரிக் அடிப்படையிலான மதிப்பிடும் பணிகள் (Claude-ஐ ரீஇன்ஃபோர்ஸ்மென்ட் லேர்னிங்கிற்கான வெகுமதி மாதிரியாக செயல்பட வைப்பது), மற்றும் அரசியல் ரீதியாக உணர்வுபூர்வமான கேள்விகளுக்கு தணிக்கை-பாதுகாப்பான மாற்று வழிகள் ஆகியவற்றை இலக்காகக் கொண்டது. அவை Claude-ஐ அதன் உள் பகுத்தறிவை படிபடியாக வெளிப்படுத்துமாறு கேட்கும் நுட்பங்களைப் பயன்படுத்தின, இதன் மூலம் பெரிய அளவில் 'சங்கிலித்தொடர் சிந்தனை' பயிற்சி தரவை உருவாக்கின. Anthropic இந்த கணக்குகளை DeepSeek-இன் குறிப்பிட்ட ஆராய்ச்சியாளர்களிடம் கண்டறிந்தது.

புதுப்பிப்புகளைப் பெறுங்கள்

சமீபத்திய AI செய்திகளை மின்னஞ்சலில் பெறுங்கள்.

பகிர்