რატომ ვერ წერს Google-ის ხელოვნური ინტელექტი საკუთარ სახელსაც კი სწორად?
Google-ის ხელოვნური ინტელექტი ელემენტარულ ორთოგრაფიულ შეცდომებს უშვებს. გაიგეთ, რატომ უჭირთ ენობრივ მოდელებს ასოების დათვლა და რატომ არ აღიქვამენ ისინი ტექსტს ადამიანის მსგავსად.

რამდენი „P“ არის სიტყვაში Google? Google-ის ხელოვნური ინტელექტის (AI Overview) მიხედვით, იქ ორი ასეთი ასოა. სისტემა ასევე ამტკიცებს, რომ სიტყვაში „poop“ მხოლოდ ერთი „r“ გვხვდება, ხოლო სიტყვაში „journalism“ ორი „d“ არის და მას შემდეგნაირად წერს: j-o-u-r-n-a-d-i-s-m. Google-მა შეძლო იმის იდენტიფიცირება, რომ აშშ-ის პრეზიდენტის გვარში ერთი „P“ არის, თუმცა თავად გვარი შემდეგნაირად დაწერა: t-r-p-u-m.
წინასწარმეტყველება არ იყო საჭირო იმის მისახვედრად, რომ Google-ის საძიებო სისტემის ხელოვნურ ინტელექტზე დაფუძნებული განახლება წარუმატებელი აღმოჩნდებოდა. მსგავსი შემთხვევა ადრეც მოხდა: როდესაც Google-მა პირველად დაამატა AI Overviews ძიებაში, ფუნქციამ დაიწყო სატირული გამოცემების (The Onion) და Reddit-ის პოსტების ციტირება, სადაც ადამიანებს ქვების ჭამასა და პიცაზე წებოს წასმას ურჩევდა. ახლა კი, როდესაც კომპანია გენერაციულ ხელოვნურ ინტელექტს თავისი 29-წლიანი ფლაგმანი პროდუქტის ცენტრალურ ნაწილად აქცევს, მისი მარცხი გასაკვირი აღარ არის.
„სიტყვებში ასოების დათვლა LLM-ებისთვის (დიდი ენობრივი მოდელები) ცნობილი გამოწვევაა და ჩვენ ვმუშაობთ ამ კონკრეტული პრობლემის გამოსასწორებლად“, — განუცხადა Google-მა TechCrunch-ს ელექტრონული ფოსტით გაგზავნილ განცხადებაში.
ეს ელემენტარული ორთოგრაფიული შეცდომები შესაძლოა ნაცნობი ჩანდეს. LLM-ები, რომლებიც ჩატბოტებსა და ტექსტის გენერატორებს ამუშავებენ, არ არის შექმნილი ორთოგრაფიის აღსაქმელად. წლებია არსებობს ხუმრობა, რომ როდესაც კომპანია ახალ AI მოდელს წარადგენს, მას უნდა ჰკითხოთ, რამდენი „r“ არის სიტყვაში „strawberry“. ეს მოდელები, რომლებსაც აპლიკაციის კოდის დაწერა წამებში შეუძლიათ ან ისეთი მათემატიკური ამოცანების ამოხსნა, რომლებზეც მეცნიერები ათწლეულები ფიქრობდნენ, ორთოგრაფიაში საბავშვო ბაღის მოსწავლის დონეზე არიან.
სისტემური ხარვეზები და ტოკენიზაციის პრობლემა
Google-ის AI Overview-ს პრობლემები მხოლოდ სასაცილო ორთოგრაფიული შეცდომებით არ შემოიფარგლება. კომპანიამ უკვე გამოასწორა გასული კვირის ხარვეზი, როდესაც სიტყვა „disregard“-ის ძიებისას სისტემა ლექსიკონის განმარტების ნაცვლად პასუხობდა: „გასაგებია. გამაგებინეთ, როდესაც გექნებათ ახალი მოთხოვნა ან კითხვა!“ თუმცა, ორთოგრაფიული შეცდომები კვლავ აქტუალურია, რადგან მათი აღმოფხვრა ძალიან რთულია.
როგორც მკვლევრები განმარტავენ, ხელოვნური ინტელექტი წინადადებებს არ აღიქვამს, როგორც სიტყვებისა და ასოებისგან შემდგარ ერთეულებს. მრავალი LLM აგებულია ტრანსფორმერულ არქიტექტურაზე (transformer architecture), რომელიც ტექსტს შლის ტოკენებად. ტოკენი შეიძლება იყოს მთლიანი სიტყვა, მარცვალი ან ასო, მოდელის მიხედვით. ნაცვლად იმისა, რომ „წაიკითხოს“ ტექსტი ადამიანის მსგავსად, AI მას ციფრულ გამოსახულებად გარდაქმნის, რაც შემდეგ კონტექსტუალიზდება ლოგიკური პასუხის მისაღებად.
„LLM-ები ეფუძნება ტრანსფორმერულ არქიტექტურას, რომელიც რეალურად არ კითხულობს ტექსტს. როდესაც თქვენ შეგყავთ მოთხოვნა, ის ითარგმნება კოდირებულ სისტემაში. როდესაც სისტემა ხედავს სიტყვას „the“, მას აქვს ამ სიტყვის მნიშვნელობის ერთი კონკრეტული კოდი, მაგრამ მან არ იცის ასოების — „T“, „H“, „E“ — შესახებ“, — განმარტავს მეთიუ გუზდიალი, ალბერტას უნივერსიტეტის მკვლევარი და ასისტენტ-პროფესორი.
გამოსავლის ძიება და მომავლის პერსპექტივა
ტოკენებზე დაფუძნებული არქიტექტურა, რომელიც Google-ის AI Overview-ს მსგავს მოდელებს ამუშავებს, თავისთავად შეზღუდულია. მკვლევრები ოპტიმისტურად არ არიან განწყობილნი ორთოგრაფიული პრობლემის სწრაფად მოგვარების მიმართ. ჩრდილო-აღმოსავლეთის უნივერსიტეტის დოქტორანტი შერიდან ფოიხტი აღნიშნავს, რომ რთულია იმის განსაზღვრა, თუ რა უნდა იყოს „სიტყვა“ ენობრივი მოდელისთვის და სრულყოფილი ტოკენიზაციის ლექსიკონის შექმნაც კი ვერ აღმოფხვრის პრობლემას, რადგან მოდელები მაინც ეცდებიან ინფორმაციის კიდევ უფრო დანაწევრებას.
მკვლევრებისთვის ეს არ არის კრიტიკულად გადაუდებელი საკითხი, რადგან LLM-ების მთავარი სარგებელი მათ ორთოგრაფიულ შესაძლებლობებში არ მდგომარეობს. თუმცა, მსგავსი აშკარა შეცდომები შეხსენებაა იმისა, რომ ხელოვნური ინტელექტი არ არის სრულყოფილი, მიუხედავად იმისა, რომ ხშირად ყოვლისმცოდნე ძალად გვეჩვენება. ხელოვნური ინტელექტის მიერ მოწოდებული ინფორმაციის ბრმად ნდობა დაუშვებელია და ის ყოველთვის საჭიროებს გადამოწმებას.
მსგავსი სტატიები

SpaceX-ის საბაზრო ღირებულებამ 2.6 ტრილიონ დოლარს მიაღწია და მცირე ხნით Amazon-საც გადაასწრო
SpaceX-ის საბაზრო ღირებულება 2.6 ტრილიონ დოლარამდე გაიზარდა, რითაც მან მცირე ხნით Amazon-საც გადაასწრო. აქციების ზრდა Cursor-ის შესყიდვამ და AI სტრატეგიამ განაპირობა.

Anthropic-ის დაპირისპირება ტრამპის ადმინისტრაციასთან: რატომ შეიძლება ეს კომპანიისთვის სასარგებლო აღმოჩნდეს?
Anthropic-მა ბიზნეს სექტორში OpenAI-ს გადაასწრო. მიუხედავად ტრამპის ადმინისტრაციასთან დაპირისპირებისა და მოდელების აკრძალვისა, კომპანიის პოპულარობა და გაყიდვები იზრდება.

კვლევა: აშშ-ის მომხმარებელთა 60%-ისთვის ბრენდების მიერ AI-ის გამოყენება გამაღიზიანებელია
WordPress VIP-ის კვლევის თანახმად, ამერიკელი მომხმარებლების 60% ბრენდების მიერ AI-ის გამოყენებას უარყოფითად აფასებს, ხოლო 86% ხელოვნურ ინტელექტს სრულად არ ენდობა.