ირონიული რეალობა: ხელოვნური ინტელექტის პრესტიჟულ კონფერენციაზე წარდგენილ ნაშრომებში ყალბი ციტატები აღმოაჩინეს

ხელოვნური ინტელექტის დეტექტირების სტარტაპმა, GPTZero-მ, ნერვული ინფორმაციის დამუშავების სისტემების პრესტიჟულ კონფერენციაზე (NeurIPS) მიღებული ყველა — 4,841 სამეცნიერო ნაშრომი შეამოწმა. აღნიშნული კონფერენცია გასულ თვეში სან-დიეგოში ჩატარდა. კომპანიამ TechCrunch-ს განუცხადა, რომ 51 ნაშრომში 100 ჰალუცინირებული ციტატა აღმოაჩინეს, რომლებიც საბოლოოდ გაყალბებულად დადასტურდა.

NeurIPS-ზე ნაშრომის წარდგენა ხელოვნური ინტელექტის სფეროში მომუშავე მკვლევრებისთვის კარიერული წინსვლის უმნიშვნელოვანესი ეტაპია. იმის გათვალისწინებით, რომ ამ სფეროს წამყვანი სპეციალისტები სწორედ აქ იყრიან თავს, მოსალოდნელი იყო, რომ ისინი დიდ ენობრივ მოდელებს (LLM) ციტატების შედგენის რუტინული და მოსაწყენი პროცესისთვის გამოიყენებდნენ.

აღნიშნულ კვლევას თან ახლავს გარკვეული დათქმებიც: 51 ნაშრომში ნაპოვნი 100 დადასტურებული ჰალუცინირებული ციტატა სტატისტიკურად მნიშვნელოვან მაჩვენებლად არ მიიჩნევა. თითოეული ნაშრომი ათეულობით ციტატას შეიცავს, რაც იმას ნიშნავს, რომ ათიათასობით მითითებას შორის ეს ციფრი სტატისტიკურად თითქმის ნულის ტოლია.

მნიშვნელოვანია ისიც, რომ უზუსტო ციტატა თავად ნაშრომის კვლევით ღირებულებას არ აბათილებს. როგორც NeurIPS-ის წარმომადგენლებმა გამოცემა Fortune-ს განუცხადეს (რომელმაც პირველმა გაავრცელა ინფორმაცია GPTZero-ს კვლევის შესახებ), მაშინაც კი, თუ ნაშრომების 1.1%-ში ერთი ან მეტი არასწორი მითითებაა LLM-ის გამოყენების გამო, ეს თავად ნაშრომის შინაარსს აუცილებლად არ აუფასურებს.

გაყალბებული ციტატების გავლენა

მიუხედავად სტატისტიკური სიმცირისა, გაყალბებული ციტატები მაინც პრობლემას წარმოადგენს. NeurIPS ხაზს უსვამს, რომ ამაყობს თავისი „მკაცრი სამეცნიერო სტანდარტებით მანქანური სწავლებისა და ხელოვნური ინტელექტის სფეროში“. თითოეულ ნაშრომს რამდენიმე რეცენზენტი ამოწმებს, რომლებსაც აქვთ მითითება, რომ ჰალუცინაციების ნებისმიერი შემთხვევა დააფიქსირონ.

ციტატები მკვლევრებისთვის ერთგვარი „ვალუტაა“. ისინი გამოიყენება კარიერულ მეტრიკად იმის საჩვენებლად, თუ რამდენად გავლენიანია მკვლევრის ნამუშევარი კოლეგებს შორის. როდესაც ხელოვნური ინტელექტი მათ იგონებს, ეს ამ მეტრიკის ღირებულებას ამცირებს.

რეცენზირების კრიზისი

რეცენზენტებს ვერავინ დაადანაშაულებს იმაში, რომ მათ ხელოვნური ინტელექტის მიერ შექმნილი რამდენიმე ციტატა გამორჩათ, განსაკუთრებით ნაშრომების იმ უზარმაზარი მოცულობის გათვალისწინებით, რასთანაც მათ უწევთ მუშაობა. ამას GPTZero-ც აღნიშნავს. კვლევის მიზანი იყო კონკრეტული მონაცემების ჩვენება იმის შესახებ, თუ როგორ იპარება ხელოვნური ინტელექტის მიერ გენერირებული უხარისხო კონტენტი (AI slop) „ნაშრომების ცუნამის“ მეშვეობით.

„ამ ნაკადმა კონფერენციების რეცენზირების პროცესი კრიტიკულ ზღვრამდე მიიყვანა“, — ნათქვამია სტარტაპის ანგარიშში.

GPTZero მიუთითებს 2025 წლის მაისის ნაშრომზეც, სახელწოდებით „ხელოვნური ინტელექტის კონფერენციების რეცენზირების კრიზისი“, სადაც განხილულია ეს პრობლემა წამყვან კონფერენციებზე, მათ შორის NeurIPS-ზე.

ჩნდება კითხვა: რატომ ვერ შეძლეს თავად მკვლევრებმა LLM-ის მიერ შესრულებული სამუშაოს სიზუსტის გადამოწმება? მათ ხომ ზუსტად უნდა იცოდნენ იმ ნაშრომების სია, რომლებიც საკუთარი კვლევისთვის გამოიყენეს. ეს ყველაფერი ერთ დიდ ირონიულ დასკვნამდე მიდის: თუ მსოფლიოს წამყვანი ხელოვნური ინტელექტის ექსპერტები, რომელთა რეპუტაციაც სასწორზე დევს, ვერ უზრუნველყოფენ LLM-ის გამოყენების სიზუსტეს დეტალებში, რას უნდა ველოდოთ დანარჩენი საზოგადოებისგან?

გაყალბებული ციტატების გავლენა

რეცენზირების კრიზისი

მსგავსი სტატიები

„AI კომუნიზმი“, უკონტროლო მოდელები და მიზეზები, რის გამოც Kimi K3-მა უოლ-სტრიტი შეაშფოთა

საჯარო წარმატება და საჯარო მარცხი: როგორია იყო 20 წლამდე ასაკის სტარტაპერი AI-ის ეპოქაში