Anthropic-მა DeepSeek-ისა და MiniMax-ის მიერ განხორციელებული დისტილაციის შეტევები გამოააშკარავა

Anthropic-მა სამრეწველო მასშტაბის დისტილაციის კამპანიები გამოავლინა

Anthropic-მა გამოაქვეყნა მტკიცებულებები, რომ სამმა AI ლაბორატორიამ — DeepSeek, Moonshot AI და MiniMax — კოორდინირებული კამპანიები განახორციელეს Claude-ის შესაძლებლობების უკანონო დისტილაციის გზით მოსაპოვებლად. კამპანიებმა Claude-თან 16 მილიონზე მეტი გაცვლა წარმოქმნა დაახლოებით 24,000 თაღლითური ანგარიშის მეშვეობით, რითაც დაირღვა Anthropic-ის მომსახურების პირობები და რეგიონული წვდომის შეზღუდვები.

დისტილაცია არის კანონიერი ტექნიკა, სადაც უფრო პატარა მოდელი გაწვრთნილია უფრო ძლიერი მოდელის გამომუშავებებზე. მოწინავე ლაბორატორიები რეგულარულად ახორციელებენ საკუთარი მოდელების დისტილაციას უფრო იაფი ვერსიების შესაქმნელად. მაგრამ როდესაც კონკურენტები დისტილაციას ნებართვის გარეშე იყენებენ, ისინი იძენენ მძლავრ შესაძლებლობებს დამოუკიდებელი განვითარებისთვის საჭირო ღირებულებისა და დროის მცირე ნაწილში.

შეტევები მიზნად ისახავდა Claude-ის ყველაზე გამორჩეულ მახასიათებლებს: აგენტურ მსჯელობას, ხელსაწყოების გამოყენებას და კოდირებას — იგივე შესაძლებლობებს, რომლებიც ძალას აძლევს Claude Opus 4.6-ს და Claude Sonnet 4.6-ს.

თითოეული კამპანიის მასშტაბი და მიზნები

ლაბორატორია	გაცვლები	ძირითადი სამიზნეები
DeepSeek	150,000+	მსჯელობა, ჯილდოს მოდელის შეფასება, ცენზურის გვერდის ავლა
Moonshot AI	3.4 მილიონ+	აგენტური მსჯელობა, ხელსაწყოების გამოყენება, კომპიუტერული ხედვა
MiniMax	13 მილიონ+	აგენტური კოდირება, ხელსაწყოების ორკესტრირება

DeepSeek-მა გამოიყენა საყურადღებო ტექნიკა: მოთხოვნები, რომლებიც Claude-ს სთხოვდა, ეტაპობრივად გამოეთქვა თავისი შიდა მსჯელობა, რითაც ეფექტურად წარმოქმნიდა აზროვნების ჯაჭვის სასწავლო მონაცემებს მასშტაბურად. მათ ასევე გამოიყენეს Claude პოლიტიკურად მგრძნობიარე მოთხოვნებისთვის ცენზურისგან თავისუფალი ალტერნატივების შესაქმნელად — სავარაუდოდ, საკუთარი მოდელების გასაწვრთნელად, რათა საუბრები ცენზურირებული თემებისგან შორს წაეყვანათ. Anthropic-მა ეს ანგარიშები ლაბორატორიის კონკრეტულ მკვლევარებს მიაკვლია.

Moonshot AI-მ (Kimi მოდელები) ასობით თაღლითური ანგარიში გამოიყენა წვდომის მრავალი გზით. მოგვიანებით ეტაპზე, Moonshot-მა უფრო მიზანმიმართულ მიდგომაზე გადაინაცვლა, ცდილობდა Claude-ის მსჯელობის კვალის ამოღებას და რეკონსტრუქციას.

MiniMax-მა ყველაზე დიდი კამპანია განახორციელა 13 მილიონზე მეტი გაცვლით. Anthropic-მა ეს კამპანია მაშინაც კი აღმოაჩინა, როდესაც ის ჯერ კიდევ აქტიური იყო — სანამ MiniMax გამოუშვებდა მოდელს, რომელზეც მუშაობდა. როდესაც Anthropic-მა აქტიური კამპანიის დროს ახალი მოდელი გამოუშვა, MiniMax-მა 24 საათის განმავლობაში შეცვალა მიმართულება, თითქმის ნახევარი ტრაფიკი გადაამისამართა უახლესი შესაძლებლობების მოსაპოვებლად.

როგორ გვერდს უვლიან დისტილატორები წვდომის შეზღუდვებს

Anthropic არ გთავაზობთ Claude-ზე კომერციულ წვდომას ჩინეთში ეროვნული უსაფრთხოების მიზეზების გამო. ლაბორატორიებმა ეს გვერდი აუარეს კომერციული პროქსი სერვისების მეშვეობით, რომლებიც ყიდიან მოწინავე მოდელებზე წვდომას მასშტაბურად.

ეს სერვისები მართავს იმას, რასაც Anthropic "ჰიდრა კლასტერულ" არქიტექტურას უწოდებს: თაღლითური ანგარიშების გაფართოებული ქსელები, რომლებიც ტრაფიკს ანაწილებენ API-სა და მესამე მხარის ღრუბლოვან პლატფორმებზე. როდესაც ერთი ანგარიში იბლოკება, მას ახალი ცვლის. ერთმა პროქსი ქსელმა ერთდროულად 20,000-ზე მეტი თაღლითური ანგარიში მართა, დისტილაციის ტრაფიკი შეუთანხმებელ მომხმარებელთა მოთხოვნებთან ერეოდა, რათა გამოვლენა გაერთულებინა.

დისტილაციას ნორმალური გამოყენებისგან განასხვავებს ნიმუში. ერთი მოთხოვნა შეიძლება უვნებლად გამოიყურებოდეს, მაგრამ როდესაც ვარიაციები ათობით ათასჯერ ჩნდება ასობით კოორდინირებული ანგარიშის მეშვეობით, რომლებიც ყველა ერთსა და იმავე ვიწრო შესაძლებლობას უმიზნებენ, ნიმუში ნათელი ხდება.

ეროვნული უსაფრთხოების შედეგები

უკანონოდ გამოხდილ მოდელებს აკლიათ უსაფრთხოების დამცავი მექანიზმები, რომლებსაც ამერიკული კომპანიები აშენებენ მოწინავე სისტემებში. ეს დამცავი მექანიზმები ხელს უშლის AI-ის გამოყენებას ბიოლოგიური იარაღის შესაქმნელად, თავდასხმითი კიბერ ოპერაციების განსახორციელებლად ან მასობრივი თვალთვალის გასააქტიურებლად.

უკანონო დისტილაციის გზით შექმნილი მოდელები ნაკლებად სავარაუდოა, რომ შეინარჩუნებენ ამ დაცვებს. უცხოურ ლაბორატორიებს შეუძლიათ დაუცველი შესაძლებლობები სამხედრო, დაზვერვისა და თვალთვალის სისტემებში შეიტანონ. თუ დისტილირებული მოდელები ღია კოდის სახით გავრცელდება, საშიში შესაძლებლობები თავისუფლად გავრცელდება ნებისმიერი მთავრობის კონტროლის მიღმა.

დისტილაციის შეტევები ასევე ძირს უთხრის აშშ-ის ექსპორტის კონტროლს. ამ შეტევების შესახებ ინფორმაციის გარეშე, ამ ლაბორატორიების აშკარად სწრაფი წინსვლა შეიძლება არასწორად იქნას ინტერპრეტირებული, როგორც მტკიცებულება იმისა, რომ ექსპორტის კონტროლი არაეფექტურია. სინამდვილეში, მიღწევები დამოკიდებულია ამერიკული მოდელებიდან მოპოვებულ შესაძლებლობებზე, და მოპოვების მასშტაბურად განხორციელება მოითხოვს მოწინავე ჩიპებს, რომელთა შეზღუდვისთვისაც ექსპორტის კონტროლია შექმნილი.

Anthropic-ის კონტრზომები

Anthropic ნერგავს მრავალ დაცვას დისტილაციის შეტევების წინააღმდეგ:

გამოვლენის კლასიფიკატორები: ქცევითი თითის ანაბეჭდის სისტემები, რომლებიც იდენტიფიცირებენ დისტილაციის ნიმუშებს API ტრაფიკში, მათ შორის აზროვნების ჯაჭვის გამოწვევა, რომელიც გამოიყენება მსჯელობის სასწავლო მონაცემების შესაქმნელად.
დაზვერვის გაზიარება: ტექნიკური ინდიკატორები, რომლებიც გაზიარებულია სხვა AI ლაბორატორიებთან, ღრუბლოვან პროვაიდერებთან და შესაბამის ორგანოებთან დისტილაციის ლანდშაფტის ჰოლისტიკური სურათისთვის.
წვდომის კონტროლი: გაძლიერებული ვერიფიკაცია საგანმანათლებლო ანგარიშებისთვის, უსაფრთხოების კვლევის პროგრამებისთვის და სტარტაპ ორგანიზაციებისთვის — ყველაზე ხშირად ექსპლოატირებული გზებისთვის.
მოდელის დონის დამცავი მექანიზმები: პროდუქტის, API-ის და მოდელის დონის კონტრზომები, რომლებიც შექმნილია გამომავალი ეფექტურობის შესამცირებლად უკანონო დისტილაციისთვის კანონიერი გამოყენების გაუარესების გარეშე.

Anthropic-მა ეს აღმოჩენები ასევე დაუკავშირა თავის ადრინდელ მხარდაჭერას Claude Code Security შესაძლებლობებისთვის დამცველებისთვის, რაც მოწინავე AI შესაძლებლობების დაცვის უზრუნველყოფის უფრო ფართო სტრატეგიის ნაწილია.

საჭიროა ინდუსტრიის მასშტაბური რეაგირება

Anthropic ხაზს უსვამს, რომ არცერთ კომპანიას არ შეუძლია დისტილაციის შეტევების მოგვარება მარტო. კამპანიები იყენებენ კომერციულ პროქსი სერვისებს, მესამე მხარის ღრუბლოვან პლატფორმებს და ანგარიშის ვერიფიკაციის ხარვეზებს, რომლებიც მოიცავს მთელ AI ეკოსისტემას.

ამ კამპანიების მზარდი ინტენსივობა და დახვეწილობა ავიწროვებს მოქმედების ფანჯარას. Anthropic-მა შენიშნა, რომ დისტილატორები სწრაფად ეგუებიან: როდესაც ახალი მოდელები გამოდის, მოპოვების მცდელობები საათების განმავლობაში იცვლება. როდესაც ანგარიშები იბლოკება, პროქსი ქსელები მათ დაუყოვნებლივ ცვლის ჰიდრა კლასტერული არქიტექტურით, რომელსაც არ აქვს ერთი მარცხის წერტილი.

საფრთხის მოგვარება მოითხოვს კოორდინირებულ მოქმედებას AI კომპანიებს, ღრუბლოვან პროვაიდერებსა და პოლიტიკის შემქმნელებს შორის. Anthropic-მა გამოაქვეყნა თავისი დასკვნები, რათა მტკიცებულებები ხელმისაწვდომი ყოფილიყო ყველასთვის, ვისაც წილი აქვს მოწინავე AI შესაძლებლობების არაავტორიზებული მოპოვებისგან დაცვაში. კომპანია მოუწოდებს ინდუსტრიის მასშტაბურ სტანდარტებს ანგარიშის ვერიფიკაციისთვის, გაზიარებული საფრთხის დაზვერვის ჩარჩოებს და პოლიტიკის მხარდაჭერას უკანონო დისტილაციის წინააღმდეგ აღსრულებისთვის მასშტაბურად.

ორიგინალი წყარო

https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks

ხშირად დასმული კითხვები

რა არის AI დისტილაციის შეტევები?

AI დისტილაციის შეტევები გულისხმობს ნაკლებად მძლავრი მოდელის გაწვრთნას უფრო ძლიერი მოდელის გამომუშავებებზე, ნებართვის გარეშე. კონკურენტები წარმოქმნიან უზარმაზარ რაოდენობას გულდასმით შემუშავებული მოთხოვნების, რათა მოიპოვონ კონკრეტული შესაძლებლობები მოწინავე მოდელიდან, შემდეგ კი იყენებენ პასუხებს საკუთარი სისტემების გასაწვრთნელად. Anthropic-მა გამოავლინა 16 მილიონზე მეტი უკანონო გაცვლა DeepSeek-ის, Moonshot-ის და MiniMax-ის მიერ გამოყენებული დაახლოებით 24,000 თაღლითური ანგარიშის მეშვეობით, რათა Claude-ის შესაძლებლობები მოეპოვებინათ.

რომელმა კომპანიებმა განახორციელეს Claude-ის შესაძლებლობების დისტილაცია?

Anthropic-მა გამოავლინა სამი ჩინური AI ლაბორატორია, რომლებიც ატარებდნენ სამრეწველო მასშტაბის დისტილაციის კამპანიებს: DeepSeek (150,000-ზე მეტი გაცვლა, მიზნად ისახავდა მსჯელობასა და ცენზურის გვერდის ავლას), Moonshot AI (3.4 მილიონზე მეტი გაცვლა, მიზნად ისახავდა აგენტურ მსჯელობასა და ხელსაწყოების გამოყენებას) და MiniMax (13 მილიონზე მეტი გაცვლა, მიზნად ისახავდა აგენტურ კოდირებასა და ხელსაწყოების ორკესტრირებას).

რატომ წარმოადგენს დისტილაციის შეტევები ეროვნული უსაფრთხოების რისკს?

უკანონოდ გამოხდილ მოდელებს აკლიათ უსაფრთხოების დამცავი მექანიზმები, რომლებსაც ამერიკული კომპანიები, როგორიცაა Anthropic, აშენებენ თავიანთ სისტემებში. ეს დაუცველი მოდელები შეიძლება გამოყენებულ იქნას თავდასხმითი კიბერ ოპერაციებისთვის, დეზინფორმაციული კამპანიებისთვის, მასობრივი თვალთვალისთვის და ბიოლოგიური იარაღის განვითარების მხარდასაჭერადაც კი. თუ დისტილირებული მოდელები ღია კოდის სახით გავრცელდება, საშიში შესაძლებლობები გავრცელდება ნებისმიერი ერთი მთავრობის კონტროლის მიღმა, რაც ძირს უთხრის ექსპორტის კონტროლს, რომელიც მიზნად ისახავს ამერიკის AI უპირატესობის შენარჩუნებას.

როგორ მოიპოვეს DeepSeek-მა, Moonshot-მა და MiniMax-მა წვდომა Claude-ზე?

ლაბორატორიებმა გვერდი აუარეს Anthropic-ის რეგიონულ წვდომის შეზღუდვებს კომერციული პროქსი სერვისების გამოყენებით, რომლებიც Claude API-ზე წვდომას მასშტაბურად ყიდიან. ეს სერვისები მუშაობს ჰიდრა კლასტერული არქიტექტურით, თაღლითური ანგარიშების გაფართოებული ქსელებით, რომლებიც განაწილებულია Anthropic-ის API-სა და მესამე მხარის ღრუბლოვან პლატფორმებზე. ერთმა პროქსი ქსელმა ერთდროულად 20,000-ზე მეტი თაღლითური ანგარიში მართა, დისტილაციის ტრაფიკი კანონიერ მოთხოვნებთან ერეოდა გამოვლენის თავიდან ასაცილებლად.

როგორ პასუხობს Anthropic დისტილაციის შეტევებს?

Anthropic ნერგავს მრავალ კონტრზომას: ქცევითი თითის ანაბეჭდის კლასიფიკატორებს API ტრაფიკში დისტილაციის ნიმუშების გამოსავლენად, დაზვერვის გაზიარებას სხვა AI ლაბორატორიებთან და ღრუბლოვან პროვაიდერებთან, ანგარიშის დადასტურების გაძლიერებას და მოდელის დონის დამცავ მექანიზმებს, რომლებიც ამცირებენ გამომავალი ეფექტურობას უკანონო დისტილაციისთვის კანონიერი მომხმარებლებისთვის სერვისის გაუარესების გარეშე. Anthropic ასევე მოუწოდებს კოორდინირებული ინდუსტრიული და პოლიტიკური რეაგირებისკენ.

რა ამოიღო DeepSeek-მა კონკრეტულად Claude-დან?

DeepSeek-მა მიზნად ისახავდა Claude-ის მსჯელობის შესაძლებლობებს, რუბრიკაზე დაფუძნებულ შეფასების ამოცანებს (Claude-ის ჯილდოს მოდელის ფუნქციონირებას გაძლიერებითი სწავლისთვის) და ცენზურისგან თავისუფალ ალტერნატივებს პოლიტიკურად მგრძნობიარე მოთხოვნებისთვის. მათ გამოიყენეს ტექნიკა, რომელიც Claude-ს სთხოვდა ეტაპობრივად გამოეთქვა მისი შიდა მსჯელობა, რითაც მასშტაბურად წარმოქმნიდა აზროვნების ჯაჭვის სასწავლო მონაცემებს. Anthropic-მა ეს ანგარიშები DeepSeek-ის კონკრეტულ მკვლევარებს მიაკვლია.

იყავით ინფორმირებული

მიიღეთ უახლესი AI სიახლეები ელფოსტაზე.

გაზიარება