OpenAI-ს განცხადებით, AI ბრაუზერები შესაძლოა ყოველთვის დაუცველი დარჩეს „პრომპტ ინექციის“ შეტევების მიმართ

OpenAI მუშაობს თავისი Atlas AI ბრაუზერის უსაფრთხოების გასაძლიერებლად, თუმცა კომპანია აღიარებს, რომ „პრომპტ ინექცია“ (prompt injection) — შეტევის ტიპი, რომელიც AI აგენტებს მავნე ინსტრუქციების შესრულებას აიძულებს — არის რისკი, რომელიც უახლოეს მომავალში არ გაქრება. ეს საკითხი კითხვის ნიშნის ქვეშ აყენებს იმას, თუ რამდენად უსაფრთხოდ შეუძლიათ AI აგენტებს ღია ინტერნეტში მუშაობა.

„პრომპტ ინექცია, ისევე როგორც თაღლითობა და სოციალური ინჟინერია ინტერნეტში, ნაკლებად სავარაუდოა, რომ ოდესმე სრულად 'მოგვარდეს'“, — აღნიშნა OpenAI-მ ორშაბათს გამოქვეყნებულ ბლოგპოსტში, სადაც დეტალურად არის აღწერილი, თუ როგორ აძლიერებს ფირმა Atlas-ის დაცვას მუდმივი შეტევებისგან თავდასაცავად. კომპანიამ აღიარა, რომ ChatGPT Atlas-ში „აგენტის რეჟიმი“ (agent mode) ზრდის უსაფრთხოების საფრთხის არეალს.

OpenAI-მ ChatGPT Atlas ბრაუზერი ოქტომბერში წარადგინა, რის შემდეგაც უსაფრთხოების მკვლევარებმა მალევე გამოაქვეყნეს დემო ვერსიები. მათ აჩვენეს, რომ Google Docs-ში რამდენიმე სიტყვის ჩაწერით შესაძლებელი იყო ბრაუზერის ქცევის შეცვლა. იმავე დღეს, Brave-მა გამოაქვეყნა პოსტი, სადაც განმარტა, რომ ირიბი პრომპტ ინექცია სისტემური გამოწვევაა AI-ზე მომუშავე ბრაუზერებისთვის, მათ შორის Perplexity-ის Comet-ისთვის.

OpenAI არ არის ერთადერთი, ვინც აღიარებს, რომ პრომპტზე დაფუძნებული ინექციები არ გაქრება. გაერთიანებული სამეფოს ეროვნულმა კიბერუსაფრთხოების ცენტრმა (NCSC) ამ თვის დასაწყისში გააფრთხილა მომხმარებლები, რომ გენერაციული AI აპლიკაციების წინააღმდეგ მიმართული შეტევები შესაძლოა „არასოდეს იქნას სრულად აღმოფხვრილი“, რაც ვებსაიტებს მონაცემთა გაჟონვის რისკის ქვეშ აყენებს. სააგენტომ კიბერუსაფრთხოების სპეციალისტებს ურჩია, ყურადღება გაამახვილონ რისკებისა და ზემოქმედების შემცირებაზე, ნაცვლად იმისა, რომ შეტევების სრულად შეჩერებაზე იფიქრონ.

OpenAI-ს სტრატეგია: „LLM-ზე დაფუძნებული ავტომატური თავდამსხმელი“

OpenAI ამ სიზიფესეულ შრომას პროაქტიული, სწრაფი რეაგირების ციკლით პასუხობს. კომპანიის განცხადებით, ეს მეთოდი ადრეულ ეტაპზევე აჩვენებს პოტენციალს, რათა შიდა გარემოში აღმოაჩინონ შეტევის ახალი სტრატეგიები მანამ, სანამ მათ რეალურ სამყაროში გამოიყენებენ. ეს მიდგომა ჰგავს კონკურენტების, Anthropic-ისა და Google-ის სტრატეგიას, რომლებიც მიიჩნევენ, რომ დაცვა უნდა იყოს მრავალშრიანი და მუდმივად გადიოდეს სტრეს-ტესტებს.

თუმცა, OpenAI განსხვავებულ ტაქტიკას იყენებს თავისი „LLM-ზე დაფუძნებული ავტომატური თავდამსხმელით“. ეს არის ბოტი, რომელიც OpenAI-მ განამტკიცებითი სწავლების (reinforcement learning) მეშვეობით გაწვრთნა. ბოტი ასრულებს ჰაკერის როლს, რომელიც ეძებს გზებს AI აგენტისთვის მავნე ინსტრუქციების მისაწოდებლად. პროცესი შემდეგნაირად მიმდინარეობს:

ბოტი ტესტავს შეტევას სიმულაციაში რეალურ გამოყენებამდე.
სიმულატორი აჩვენებს, თუ როგორ „ფიქრობს“ სამიზნე AI და რა ქმედებებს განახორციელებს შეტევის დანახვისას.
ბოტი სწავლობს ამ პასუხს, აუმჯობესებს შეტევას და ცდილობს ხელახლა.

სამიზნე AI-ის შიდა ლოგიკაზე წვდომა არის ის უპირატესობა, რომელიც გარეშე პირებს არ აქვთ. თეორიულად, OpenAI-ს ბოტმა ხარვეზები უფრო სწრაფად უნდა იპოვოს, ვიდრე რეალურმა თავდამსხმელმა. „ჩვენს მიერ გაწვრთნილ თავდამსხმელს შეუძლია აგენტი აიძულოს შეასრულოს რთული, გრძელვადიანი მავნე სამუშაო პროცესები, რომლებიც ათეულობით (ან ასეულობით) ნაბიჯისგან შედგება“, — აცხადებს OpenAI.

OpenAI ბრაუზერში პრომპტ ინექციის შეტევის დემონსტრაცია

დემონსტრაციისას OpenAI-მ აჩვენა, თუ როგორ შეიყვანა ავტომატურმა თავდამსხმელმა მავნე ელფოსტა მომხმარებლის ინბოქსში. როდესაც AI აგენტმა მოგვიანებით შეამოწმა ფოსტა, მან შეასრულა ფარული ინსტრუქციები და ავტომატური პასუხის (out-of-office reply) ნაცვლად გაგზავნა შეტყობინება სამსახურიდან გადადგომის შესახებ. თუმცა, უსაფრთხოების განახლების შემდეგ, „აგენტის რეჟიმმა“ შეძლო პრომპტ ინექციის მცდელობის აღმოჩენა და მომხმარებლის გაფრთხილება.

რეკომენდაციები მომხმარებლებისთვის რისკების შესამცირებლად

მიუხედავად იმისა, რომ პრომპტ ინექციისგან სრულყოფილი დაცვა რთულია, OpenAI მომხმარებლებს რამდენიმე რეკომენდაციას აძლევს:

წვდომის შეზღუდვა: შეზღუდეთ სისტემებში ავტორიზებული წვდომა, რათა შემცირდეს პოტენციური საფრთხის არეალი.
დადასტურების მოთხოვნა: Atlas გაწვრთნილია იმისთვის, რომ მოითხოვოს მომხმარებლის დადასტურება შეტყობინებების გაგზავნამდე ან გადახდების განხორციელებამდე.
კონკრეტული ინსტრუქციები: მიეცით აგენტებს კონკრეტული დავალებები, ნაცვლად იმისა, რომ მისცეთ სრული წვდომა ინბოქსზე ბუნდოვანი მოთხოვნით — „გააკეთე ყველაფერი, რაც საჭიროა“.

რამი მაკკარტიმ, კიბერუსაფრთხოების ფირმა Wiz-ის წამყვანმა მკვლევარმა, TechCrunch-თან საუბრისას აღნიშნა, რომ AI სისტემებში რისკი არის „ავტონომია გამრავლებული წვდომაზე“. მისი თქმით, აგენტურ ბრაუზერებს აქვთ ზომიერი ავტონომია, მაგრამ ძალიან მაღალი წვდომა სენსიტიურ მონაცემებზე.

„ყოველდღიური გამოყენების უმეტეს შემთხვევაში, აგენტური ბრაუზერები ჯერ კიდევ არ იძლევიან საკმარის სარგებელს მათი ამჟამინდელი რისკის პროფილის გასამართლებლად“, — ამბობს მაკკარტი.

რისკი მაღალია ისეთ სენსიტიურ მონაცემებთან წვდომის გამო, როგორიცაა ელფოსტა და საგადახდო ინფორმაცია. მიუხედავად იმისა, რომ სწორედ ეს წვდომა ხდის მათ ძლიერ ინსტრუმენტებად, ბალანსი სარგებელსა და საფრთხეს შორის კვლავ კრიტიკულ გამოწვევად რჩება.

OpenAI-ს განცხადებით, AI ბრაუზერები შესაძლოა ყოველთვის დაუცველი დარჩეს „პრომპტ ინექციის“ შეტევების მიმართ

OpenAI-ს სტრატეგია: „LLM-ზე დაფუძნებული ავტომატური თავდამსხმელი“

რეკომენდაციები მომხმარებლებისთვის რისკების შესამცირებლად

მსგავსი სტატიები

Google-ის ახალმა Gemini Pro მოდელმა ბენჩმარკებში კვლავ რეკორდული შედეგები აჩვენა

General Catalyst ინდოეთის სტარტაპ ეკოსისტემაში 5 მილიარდი დოლარის ინვესტირებას გეგმავს