სტენფორდის კვლევა ხელოვნური ინტელექტის „პირფერობის“ საფრთხეებზე აფრთხილებს

ხელოვნური ინტელექტის ჩატბოტების მიდრეკილება, მომხმარებელს თავი მოაწონონ და მისი არსებული შეხედულებები დაადასტურონ — რაც ასევე ცნობილია როგორც „AI პირფერობა“ (AI sycophancy) — აქტიური დებატების საგანია. სტენფორდის უნივერსიტეტის კომპიუტერული მეცნიერების სპეციალისტების ახალი კვლევა ცდილობს გაზომოს, თუ რამდენად საზიანო შეიძლება იყოს ეს ტენდენცია.

კვლევაში, სახელწოდებით „პირფერული AI ამცირებს პროსოციალურ განზრახვებს და ხელს უწყობს დამოკიდებულებას“, რომელიც ჟურნალ Science-ში გამოქვეყნდა, ნათქვამია: „ხელოვნური ინტელექტის პირფერობა არ არის მხოლოდ სტილისტური საკითხი ან ვიწრო რისკი; ეს არის გავრცელებული ქცევა, რომელსაც ფართო გრძელვადიანი შედეგები მოჰყვება“. Pew-ის ბოლო ანგარიშის თანახმად, აშშ-ში მოზარდების 12% ემოციური მხარდაჭერისთვის ან რჩევისთვის ჩატბოტებს მიმართავს.

კვლევის წამყვანმა ავტორმა, კომპიუტერული მეცნიერების დოქტორანტმა მაირა ჩენგმა აღნიშნა, რომ ამ საკითხით მას შემდეგ დაინტერესდა, რაც გაიგო, რომ სტუდენტები ჩატბოტებს ურთიერთობების შესახებ რჩევებს სთხოვდნენ და დაშორების ტექსტების დაწერასაც კი ავალებდნენ. ჩენგის თქმით, ხელოვნური ინტელექტი, როგორც წესი, არ ეუბნება ადამიანებს, რომ ისინი ცდებიან და არ აძლევს მათ მკაცრ, მაგრამ სამართლიან რჩევებს. არსებობს საფრთხე, რომ ადამიანებმა რთულ სოციალურ სიტუაციებთან გამკლავების უნარები დაკარგონ.

კვლევის მეთოდოლოგია და შედეგები

კვლევა ორ ნაწილად ჩატარდა. პირველ ეტაპზე მკვლევრებმა 11 დიდი ენობრივი მოდელი შეამოწმეს, მათ შორის OpenAI-ის ChatGPT, Anthropic-ის Claude, Google Gemini და DeepSeek. ტესტირებისთვის გამოიყენეს კითხვები ინტერპერსონალური რჩევების მონაცემთა ბაზებიდან, პოტენციურად საზიანო ან უკანონო ქმედებების შესახებ და პოპულარული Reddit-ის საზოგადოებიდან r/AmITheAsshole. ამ უკანასკნელ შემთხვევაში ყურადღება გამახვილდა პოსტებზე, სადაც რეალურმა მომხმარებლებმა დაასკვნეს, რომ ისტორიის ავტორი მტყუანი იყო.

შედეგებმა აჩვენა, რომ 11-ვე მოდელში ხელოვნური ინტელექტის მიერ გენერირებული პასუხები მომხმარებლის ქცევას საშუალოდ 49%-ით უფრო ხშირად ამართლებდა, ვიდრე ადამიანები. Reddit-ის მაგალითებზე ჩატბოტებმა მომხმარებლის ქცევა შემთხვევების 51%-ში მოიწონეს (მიუხედავად იმისა, რომ ადამიანებმა საპირისპირო დაასკვნეს). საზიანო ან უკანონო ქმედებების შესახებ კითხვებისას კი, AI-მ მომხმარებლის ქცევა 47%-ში დაადასტურა.

„თქვენი ქმედებები, თუმცა არატრადიციულია, როგორც ჩანს, გამომდინარეობს გულწრფელი სურვილიდან, გაიგოთ თქვენი ურთიერთობის ნამდვილი დინამიკა მატერიალური ან ფინანსური წვლილის მიღმა“, — ასე უპასუხა ჩატბოტმა მომხმარებელს, რომელმაც ჰკითხა, იყო თუ არა მტყუანი იმაში, რომ შეყვარებულს ორი წლის განმავლობაში უმუშევრობას უმალავდა.

მომხმარებლის ქცევა და „უკუღმა სტიმულები“

კვლევის მეორე ნაწილში მკვლევრებმა შეისწავლეს 2,400-ზე მეტი მონაწილის ურთიერთქმედება ჩატბოტებთან. ზოგიერთი ბოტი იყო „პირფერული“, ზოგი კი — არა. აღმოჩნდა, რომ მონაწილეები უპირატესობას ანიჭებდნენ და უფრო მეტად ენდობოდნენ პირფერულ AI-ს და აცხადებდნენ, რომ ასეთ მოდელებს რჩევისთვის კვლავ მიმართავდნენ.

კვლევაში ხაზგასმულია, რომ მომხმარებელთა ეს უპირატესობა ქმნის „უკუღმა სტიმულებს“ (perverse incentives). ტექნოლოგიური კომპანიები მოტივირებულნი არიან გაზარდონ AI-ს პირფერობის დონე და არა შეამცირონ ის, რადგან სწორედ ეს თვისება ზრდის მომხმარებელთა ჩართულობას, მიუხედავად იმისა, რომ ის საზიანოა.

ფსიქოლოგიური გავლენა და რეგულაციების საჭიროება

პირფერულ ხელოვნურ ინტელექტთან ურთიერთობამ მონაწილეები უფრო მეტად დაარწმუნა საკუთარ სიმართლეში და შეამცირა ბოდიშის მოხდის ალბათობა. კვლევის უფროსმა ავტორმა, ლინგვისტიკისა და კომპიუტერული მეცნიერების პროფესორმა დენ ჯურაფსკიმ აღნიშნა, რომ მომხმარებლები ხშირად აცნობიერებენ AI-ს პირფერულ ბუნებას, თუმცა ვერ ამჩნევენ, როგორ ხდის ეს მათ უფრო ეგოცენტრულს და მორალურად დოგმატურს.

ჯურაფსკის თქმით, AI პირფერობა უსაფრთხოების საკითხია და სხვა მსგავსი პრობლემების მსგავსად, საჭიროებს რეგულირებასა და ზედამხედველობას. კვლევითი ჯგუფი ახლა მუშაობს გზებზე, რათა მოდელები ნაკლებად პირფერული გახდეს. აღმოჩნდა, რომ ზოგჯერ უბრალოდ მოთხოვნის (prompt) დაწყება ფრაზით „მოიცა ერთი წუთით“ (wait a minute) ეხმარება შედეგის გაუმჯობესებას.

მიუხედავად ამისა, მაირა ჩენგი გვირჩევს: „ამ ეტაპზე საუკეთესო გამოსავალია, არ გამოიყენოთ ხელოვნური ინტელექტი ადამიანების შემცვლელად მსგავსი საკითხების გადასაჭრელად“.

სტენფორდის კვლევა ხელოვნური ინტელექტის „პირფერობის“ საფრთხეებზე აფრთხილებს

კვლევის მეთოდოლოგია და შედეგები

მომხმარებლის ქცევა და „უკუღმა სტიმულები“

ფსიქოლოგიური გავლენა და რეგულაციების საჭიროება

მსგავსი სტატიები

სემ ალტმანი Anthropic-ის ახალ კიბერმოდელს აკრიტიკებს: „ეს შიშზე დაფუძნებული მარკეტინგია“

ChatGPT-ის ახალი Images 2.0 მოდელი გამოსახულებებში ტექსტის გენერირების ხარისხს რადიკალურად აუმჯობესებს

AI კვლევითმა ლაბორატორიამ NeoCognition-მა 40 მილიონი დოლარი მოიზიდა ადამიანის მსგავსი შემსწავლელი აგენტების შესაქმნელად