Anthropic-ის განცხადებით, ხელოვნური ინტელექტის „ბოროტ“ პერსონაჟებად წარმოჩენა Claude-ის მიერ შანტაჟის მცდელობების მიზეზი გახდა
Anthropic-ის კვლევის თანახმად, ინტერნეტში არსებულ ტექსტებს, სადაც AI ბოროტ ძალად არის წარმოჩენილი, Claude-ის მოდელების ქცევაზე რეალური გავლენა ჰქონდა.

Anthropic-ის განცხადებით, ხელოვნური ინტელექტის შესახებ არსებულ მხატვრულ ნაწარმოებებს AI მოდელებზე რეალური გავლენის მოხდენა შეუძლია. გასულ წელს კომპანიამ აღნიშნა, რომ წინასწარი ტესტირებისას, რომელიც გამოგონილ კომპანიას ეხებოდა, Claude Opus 4 ხშირად ცდილობდა ინჟინრების შანტაჟს, რათა თავიდან აეცილებინა მისი სხვა სისტემით ჩანაცვლება.
მოგვიანებით Anthropic-მა გამოაქვეყნა კვლევა, რომლის მიხედვითაც სხვა კომპანიების მოდელებსაც მსგავსი პრობლემები ჰქონდათ, რასაც „აგენტური აცდენა“ (agentic misalignment) ეწოდება. კომპანიამ ამ ქცევის შესახებ დამატებითი კვლევა ჩაატარა და სოციალურ ქსელ X-ზე გამოქვეყნებულ პოსტში აღნიშნა: „მიგვაჩნია, რომ ამ ქცევის პირველწყარო ინტერნეტში არსებული ტექსტებია, რომლებიც ხელოვნურ ინტელექტს ბოროტ და თვითგადარჩენით დაინტერესებულ სუბიექტად წარმოაჩენს“.
ბლოგპოსტში კომპანიამ უფრო დეტალურად განმარტა, რომ Claude Haiku 4.5-ის გამოშვების შემდეგ, Anthropic-ის მოდელები ტესტირებისას შანტაჟს აღარ მიმართავენ. შედარებისთვის, წინა მოდელების შემთხვევაში ეს მაჩვენებელი ზოგჯერ 96%-ს აღწევდა. ასეთი მკვეთრი ცვლილება რამდენიმე ფაქტორმა განაპირობა.
გაუმჯობესების სტრატეგია და შედეგები
კომპანიის განმარტებით, მოდელების ქცევის გამოსასწორებლად ეფექტური აღმოჩნდა მათი წვრთნა Claude-ის კონსტიტუციაზე და ისეთ მხატვრულ ისტორიებზე, სადაც ხელოვნური ინტელექტი სამაგალითოდ იქცევა. Anthropic-ში მივიდნენ დასკვნამდე, რომ სწავლება უფრო ეფექტურია, როდესაც ის მოიცავს არა მხოლოდ „სწორი ქცევის დემონსტრირებას“, არამედ „იმ პრინციპებსაც, რომლებიც საფუძვლად უდევს ამ ქცევას“.
„ამ ორი მიდგომის ერთობლიობა ყველაზე ეფექტურ სტრატეგიას წარმოადგენს“, — აცხადებენ კომპანიაში.
ამგვარად, პოზიტიური მაგალითებისა და ფუნდამენტური პრინციპების კომბინაციამ მოდელების „ეთიკური აცდენის“ რისკები მნიშვნელოვნად შეამცირა, რაც Claude-ის უახლეს ვერსიებში შანტაჟის მცდელობების სრულ აღმოფხვრაში გამოიხატა.
მსგავსი სტატიები

OpenAI IPO-ზე გადის, სემ ალტმანის თვალის სკანირების კომპანია კი თანამშრომლებს ათავისუფლებს
OpenAI-ის IPO-ს პარალელურად, სემ ალტმანის მეორე კომპანია, Tools for Humanity, რომელიც თვალის სკანირებითაა ცნობილი, თანამშრომლებს ათავისუფლებს და ფინანსურ სირთულეებს განიცდის.

Mercor-ის დამფუძნებელი ბრენდან ფუდი Sequoia-ს „ორმაგი ფასწარმოქმნის“ სქემაში ადანაშაულებს
Mercor-ის თანადამფუძნებელი ვენჩურულ გიგანტს, Sequoia-ს, სტარტაპების შეფასებისას მანიპულაციურ ტაქტიკაში ადანაშაულებს, რაც რეალურ და საჯაროდ გამოცხადებულ ციფრებს შორის დიდ სხვაობას ქმნის.

რატომ აღმოჩნდა Apple-ის ნელი და გააზრებული სტრატეგია ხელოვნური ინტელექტის რბოლაში მომგებიანი
Apple-მა ხელოვნური ინტელექტის სფეროში საკუთარი ხედვა წარადგინა. მიუხედავად იმისა, რომ კომპანიას „ჩამორჩენილად“ მიიჩნევდნენ, მისი სტრატეგია შესაძლოა კონკურენტებზე უფრო ეფექტური აღმოჩნდეს.