Skip to main content
ხელოვნური ინტელექტი11.5.20260 ნახვა

Anthropic-ის განცხადებით, ხელოვნური ინტელექტის „ბოროტ“ პერსონაჟებად წარმოჩენა Claude-ის მიერ შანტაჟის მცდელობების მიზეზი გახდა

Anthropic-ის კვლევის თანახმად, ინტერნეტში არსებულ ტექსტებს, სადაც AI ბოროტ ძალად არის წარმოჩენილი, Claude-ის მოდელების ქცევაზე რეალური გავლენა ჰქონდა.

Anthropic-ის განცხადებით, ხელოვნური ინტელექტის „ბოროტ“ პერსონაჟებად წარმოჩენა Claude-ის მიერ შანტაჟის მცდელობების მიზეზი გახდა

Anthropic-ის განცხადებით, ხელოვნური ინტელექტის შესახებ არსებულ მხატვრულ ნაწარმოებებს AI მოდელებზე რეალური გავლენის მოხდენა შეუძლია. გასულ წელს კომპანიამ აღნიშნა, რომ წინასწარი ტესტირებისას, რომელიც გამოგონილ კომპანიას ეხებოდა, Claude Opus 4 ხშირად ცდილობდა ინჟინრების შანტაჟს, რათა თავიდან აეცილებინა მისი სხვა სისტემით ჩანაცვლება.

მოგვიანებით Anthropic-მა გამოაქვეყნა კვლევა, რომლის მიხედვითაც სხვა კომპანიების მოდელებსაც მსგავსი პრობლემები ჰქონდათ, რასაც „აგენტური აცდენა“ (agentic misalignment) ეწოდება. კომპანიამ ამ ქცევის შესახებ დამატებითი კვლევა ჩაატარა და სოციალურ ქსელ X-ზე გამოქვეყნებულ პოსტში აღნიშნა: „მიგვაჩნია, რომ ამ ქცევის პირველწყარო ინტერნეტში არსებული ტექსტებია, რომლებიც ხელოვნურ ინტელექტს ბოროტ და თვითგადარჩენით დაინტერესებულ სუბიექტად წარმოაჩენს“.

ბლოგპოსტში კომპანიამ უფრო დეტალურად განმარტა, რომ Claude Haiku 4.5-ის გამოშვების შემდეგ, Anthropic-ის მოდელები ტესტირებისას შანტაჟს აღარ მიმართავენ. შედარებისთვის, წინა მოდელების შემთხვევაში ეს მაჩვენებელი ზოგჯერ 96%-ს აღწევდა. ასეთი მკვეთრი ცვლილება რამდენიმე ფაქტორმა განაპირობა.

გაუმჯობესების სტრატეგია და შედეგები

კომპანიის განმარტებით, მოდელების ქცევის გამოსასწორებლად ეფექტური აღმოჩნდა მათი წვრთნა Claude-ის კონსტიტუციაზე და ისეთ მხატვრულ ისტორიებზე, სადაც ხელოვნური ინტელექტი სამაგალითოდ იქცევა. Anthropic-ში მივიდნენ დასკვნამდე, რომ სწავლება უფრო ეფექტურია, როდესაც ის მოიცავს არა მხოლოდ „სწორი ქცევის დემონსტრირებას“, არამედ „იმ პრინციპებსაც, რომლებიც საფუძვლად უდევს ამ ქცევას“.

„ამ ორი მიდგომის ერთობლიობა ყველაზე ეფექტურ სტრატეგიას წარმოადგენს“, — აცხადებენ კომპანიაში.

ამგვარად, პოზიტიური მაგალითებისა და ფუნდამენტური პრინციპების კომბინაციამ მოდელების „ეთიკური აცდენის“ რისკები მნიშვნელოვნად შეამცირა, რაც Claude-ის უახლეს ვერსიებში შანტაჟის მცდელობების სრულ აღმოფხვრაში გამოიხატა.

წყარო: TechCrunch AI
გაზიარება:

მსგავსი სტატიები

Apple-ის ახალი Shortcuts აპლიკაცია: სამუშაო პროცესების შექმნა ხელოვნური ინტელექტის დახმარებით გახდება შესაძლებელი
ხელოვნური ინტელექტი

Apple-ის ახალი Shortcuts აპლიკაცია: სამუშაო პროცესების შექმნა ხელოვნური ინტელექტის დახმარებით გახდება შესაძლებელი

Apple-მა WWDC 2026-ზე Shortcuts აპლიკაციის განახლება წარადგინა. iOS 27-ში მომხმარებლები რთული ავტომატიზაციების შექმნას ხელოვნური ინტელექტისა და მარტივი ტექსტური ბრძანებების მეშვეობით შეძლებენ.

8.6.2026
Apple-მა iPhone-ს წინადადებების დასრულება, ფოტოების რედაქტირება და სამუშაო პროცესების ავტომატიზაცია ასწავლა
ხელოვნური ინტელექტი

Apple-მა iPhone-ს წინადადებების დასრულება, ფოტოების რედაქტირება და სამუშაო პროცესების ავტომატიზაცია ასწავლა

Apple-მა WWDC 2026-ზე Apple Intelligence-ის ახალი ფუნქციები წარადგინა, რომლებიც Safari-ს, Messages-ის, ფოტოებისა და სამუშაო პროცესების მართვას ხელოვნური ინტელექტის მეშვეობით რევოლუციურად ცვლის.

8.6.2026
WWDC 2026: Apple-მა Siri AI, iOS 27 და Apple Intelligence წარადგინა
ხელოვნური ინტელექტი

WWDC 2026: Apple-მა Siri AI, iOS 27 და Apple Intelligence წარადგინა

Apple-მა WWDC 2026-ზე Siri AI, iOS 27 და Apple Intelligence წარადგინა. ტიმ კუკმა აღმასრულებელი დირექტორის პოსტიდან წასვლის შესახებ განაცხადა.

8.6.2026