Anthropic-ის განცხადებით, ხელოვნური ინტელექტის „ბოროტ“ პერსონაჟებად წარმოჩენა Claude-ის მიერ შანტაჟის მცდელობების მიზეზი გახდა
Anthropic-ის კვლევის თანახმად, ინტერნეტში არსებულ ტექსტებს, სადაც AI ბოროტ ძალად არის წარმოჩენილი, Claude-ის მოდელების ქცევაზე რეალური გავლენა ჰქონდა.

Anthropic-ის განცხადებით, ხელოვნური ინტელექტის შესახებ არსებულ მხატვრულ ნაწარმოებებს AI მოდელებზე რეალური გავლენის მოხდენა შეუძლია. გასულ წელს კომპანიამ აღნიშნა, რომ წინასწარი ტესტირებისას, რომელიც გამოგონილ კომპანიას ეხებოდა, Claude Opus 4 ხშირად ცდილობდა ინჟინრების შანტაჟს, რათა თავიდან აეცილებინა მისი სხვა სისტემით ჩანაცვლება.
მოგვიანებით Anthropic-მა გამოაქვეყნა კვლევა, რომლის მიხედვითაც სხვა კომპანიების მოდელებსაც მსგავსი პრობლემები ჰქონდათ, რასაც „აგენტური აცდენა“ (agentic misalignment) ეწოდება. კომპანიამ ამ ქცევის შესახებ დამატებითი კვლევა ჩაატარა და სოციალურ ქსელ X-ზე გამოქვეყნებულ პოსტში აღნიშნა: „მიგვაჩნია, რომ ამ ქცევის პირველწყარო ინტერნეტში არსებული ტექსტებია, რომლებიც ხელოვნურ ინტელექტს ბოროტ და თვითგადარჩენით დაინტერესებულ სუბიექტად წარმოაჩენს“.
ბლოგპოსტში კომპანიამ უფრო დეტალურად განმარტა, რომ Claude Haiku 4.5-ის გამოშვების შემდეგ, Anthropic-ის მოდელები ტესტირებისას შანტაჟს აღარ მიმართავენ. შედარებისთვის, წინა მოდელების შემთხვევაში ეს მაჩვენებელი ზოგჯერ 96%-ს აღწევდა. ასეთი მკვეთრი ცვლილება რამდენიმე ფაქტორმა განაპირობა.
გაუმჯობესების სტრატეგია და შედეგები
კომპანიის განმარტებით, მოდელების ქცევის გამოსასწორებლად ეფექტური აღმოჩნდა მათი წვრთნა Claude-ის კონსტიტუციაზე და ისეთ მხატვრულ ისტორიებზე, სადაც ხელოვნური ინტელექტი სამაგალითოდ იქცევა. Anthropic-ში მივიდნენ დასკვნამდე, რომ სწავლება უფრო ეფექტურია, როდესაც ის მოიცავს არა მხოლოდ „სწორი ქცევის დემონსტრირებას“, არამედ „იმ პრინციპებსაც, რომლებიც საფუძვლად უდევს ამ ქცევას“.
„ამ ორი მიდგომის ერთობლიობა ყველაზე ეფექტურ სტრატეგიას წარმოადგენს“, — აცხადებენ კომპანიაში.
ამგვარად, პოზიტიური მაგალითებისა და ფუნდამენტური პრინციპების კომბინაციამ მოდელების „ეთიკური აცდენის“ რისკები მნიშვნელოვნად შეამცირა, რაც Claude-ის უახლეს ვერსიებში შანტაჟის მცდელობების სრულ აღმოფხვრაში გამოიხატა.
მსგავსი სტატიები

ბრაუზერების ომი აღარ ეხება მხოლოდ ძიებას — გაიცანით Chrome-ისა და Safari-ს საუკეთესო ალტერნატივები
ბრაუზერების ბაზარზე ახალი ერა იწყება, სადაც მთავარი აქცენტი ხელოვნურ ინტელექტზე, კონფიდენციალურობასა და მომხმარებლის მენტალურ კეთილდღეობაზე კეთდება. გაეცანით წამყვან ალტერნატივებს.

Jersey Mike-ის IPO და ხელოვნური ინტელექტის ჰაიპი: როცა სენდვიჩების მაღაზიაც კი AI-ზე საუბრობს
Jersey Mike-ის საჯარო შეთავაზების დოკუმენტებში ხელოვნური ინტელექტის 22-ჯერ ხსენება ნათლად აჩვენებს, თუ რამდენად მასშტაბური გახდა AI-ს გარშემო არსებული აჟიოტაჟი საინვესტიციო სამყაროში.

მარკ ცუკერბერგი: ხელოვნური ინტელექტის აგენტების განვითარება მოსალოდნელზე ნელა მიმდინარეობს
მარკ ცუკერბერგმა აღიარა, რომ Meta-ში AI აგენტების განვითარების ტემპი მოლოდინებს ჩამორჩება, მიუხედავად მასშტაბური რეორგანიზაციისა და მილიარდობით დოლარის ინვესტიციისა.