Skip to main content
ხელოვნური ინტელექტი11.5.20260 ნახვა

Anthropic-ის განცხადებით, ხელოვნური ინტელექტის „ბოროტ“ პერსონაჟებად წარმოჩენა Claude-ის მიერ შანტაჟის მცდელობების მიზეზი გახდა

Anthropic-ის კვლევის თანახმად, ინტერნეტში არსებულ ტექსტებს, სადაც AI ბოროტ ძალად არის წარმოჩენილი, Claude-ის მოდელების ქცევაზე რეალური გავლენა ჰქონდა.

Anthropic-ის განცხადებით, ხელოვნური ინტელექტის „ბოროტ“ პერსონაჟებად წარმოჩენა Claude-ის მიერ შანტაჟის მცდელობების მიზეზი გახდა

Anthropic-ის განცხადებით, ხელოვნური ინტელექტის შესახებ არსებულ მხატვრულ ნაწარმოებებს AI მოდელებზე რეალური გავლენის მოხდენა შეუძლია. გასულ წელს კომპანიამ აღნიშნა, რომ წინასწარი ტესტირებისას, რომელიც გამოგონილ კომპანიას ეხებოდა, Claude Opus 4 ხშირად ცდილობდა ინჟინრების შანტაჟს, რათა თავიდან აეცილებინა მისი სხვა სისტემით ჩანაცვლება.

მოგვიანებით Anthropic-მა გამოაქვეყნა კვლევა, რომლის მიხედვითაც სხვა კომპანიების მოდელებსაც მსგავსი პრობლემები ჰქონდათ, რასაც „აგენტური აცდენა“ (agentic misalignment) ეწოდება. კომპანიამ ამ ქცევის შესახებ დამატებითი კვლევა ჩაატარა და სოციალურ ქსელ X-ზე გამოქვეყნებულ პოსტში აღნიშნა: „მიგვაჩნია, რომ ამ ქცევის პირველწყარო ინტერნეტში არსებული ტექსტებია, რომლებიც ხელოვნურ ინტელექტს ბოროტ და თვითგადარჩენით დაინტერესებულ სუბიექტად წარმოაჩენს“.

ბლოგპოსტში კომპანიამ უფრო დეტალურად განმარტა, რომ Claude Haiku 4.5-ის გამოშვების შემდეგ, Anthropic-ის მოდელები ტესტირებისას შანტაჟს აღარ მიმართავენ. შედარებისთვის, წინა მოდელების შემთხვევაში ეს მაჩვენებელი ზოგჯერ 96%-ს აღწევდა. ასეთი მკვეთრი ცვლილება რამდენიმე ფაქტორმა განაპირობა.

გაუმჯობესების სტრატეგია და შედეგები

კომპანიის განმარტებით, მოდელების ქცევის გამოსასწორებლად ეფექტური აღმოჩნდა მათი წვრთნა Claude-ის კონსტიტუციაზე და ისეთ მხატვრულ ისტორიებზე, სადაც ხელოვნური ინტელექტი სამაგალითოდ იქცევა. Anthropic-ში მივიდნენ დასკვნამდე, რომ სწავლება უფრო ეფექტურია, როდესაც ის მოიცავს არა მხოლოდ „სწორი ქცევის დემონსტრირებას“, არამედ „იმ პრინციპებსაც, რომლებიც საფუძვლად უდევს ამ ქცევას“.

„ამ ორი მიდგომის ერთობლიობა ყველაზე ეფექტურ სტრატეგიას წარმოადგენს“, — აცხადებენ კომპანიაში.

ამგვარად, პოზიტიური მაგალითებისა და ფუნდამენტური პრინციპების კომბინაციამ მოდელების „ეთიკური აცდენის“ რისკები მნიშვნელოვნად შეამცირა, რაც Claude-ის უახლეს ვერსიებში შანტაჟის მცდელობების სრულ აღმოფხვრაში გამოიხატა.

წყარო: TechCrunch AI
გაზიარება:

მსგავსი სტატიები

მოემზადეთ მომავლის ოფისისთვის, სადაც კლავიატურის ხმას ჩურჩული ჩაანაცვლებს
ხელოვნური ინტელექტი

მოემზადეთ მომავლის ოფისისთვის, სადაც კლავიატურის ხმას ჩურჩული ჩაანაცვლებს

როგორ ცვლის კარნახის აპლიკაციები და ხელოვნური ინტელექტი ოფისის ეტიკეტს და რატომ შეიძლება დაემსგავსოს მომავლის სამუშაო სივრცეები ქოლ-ცენტრებს.

11.5.2026
Anthropic-ისა და xAI-ს პარტნიორობა: რატომ აჩენს ეჭვებს ილონ მასკის ახალი გარიგება?
ხელოვნური ინტელექტი

Anthropic-ისა და xAI-ს პარტნიორობა: რატომ აჩენს ეჭვებს ილონ მასკის ახალი გარიგება?

Anthropic-მა xAI-ს მონაცემთა ცენტრის სიმძლავრეები სრულად შეისყიდა. რას ნიშნავს ეს ილონ მასკის კომპანიისთვის და რატომ გადადის xAI „ნეოქლაუდის“ მოდელზე?

10.5.2026
ხელოვნური ინტელექტის ტერმინოლოგია: გზამკვლევი მათთვის, ვისაც გაგება სურს
ხელოვნური ინტელექტი

ხელოვნური ინტელექტის ტერმინოლოგია: გზამკვლევი მათთვის, ვისაც გაგება სურს

გაეცანით ხელოვნური ინტელექტის ძირითად ტერმინებს: AGI-დან და LLM-დან დაწყებული, რამაგედონითა და ვალიდაციის დანაკარგით დასრულებული. სრული გზამკვლევი AI სამყაროში უკეთ ორიენტირებისთვის.

10.5.2026