Microsoft-ის ახალი ინსტრუმენტი დეველოპერებს ხელოვნური ინტელექტის ქცევის ტესტირებას ტექსტური აღწერილობებით უმარტივებს

ხელოვნური ინტელექტის მკვლევრებმა და ლაბორატორიებმა მნიშვნელოვან პროგრესს მიაღწიეს AI მოდელების შეფასების კუთხით — იქნება ეს უსაფრთხოება, შესაბამისობა თუ ეთიკური ნორმების დაცვა. თუმცა, კომპანიები და დეველოპერები ახალი, სპეციფიკური გამოწვევის წინაშე დადგნენ: მათ უნდა უზრუნველყონ, რომ ხელოვნური ინტელექტის სისტემა ზუსტად ისე იქცეოდეს, როგორც ეს კონკრეტული პროდუქტისთვის ან სერვისისთვის არის საჭირო.

ამ პროცესის გასამარტივებლად, Microsoft-მა წარადგინა ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing). ეს არის ღია კოდის მქონე ჩარჩო (framework), რომელიც აპლიკაციაზე მორგებული AI ქცევის შეფასებას ამარტივებს. ინსტრუმენტი იყენებს ხელოვნურ ინტელექტს, რათა მაღალი დონის, ბუნებრივ ენაზე დაწერილი მიზნები, პოლიტიკა ან სასურველი ქცევები დეტალურ, ქულებით შეფასებად ტესტებად გარდაქმნას.

ASSERT-ი იღებს AI მოდელის მოსალოდნელი ქცევისა და წესების მარტივ აღწერილობას და მათ მისაღები და მიუღებელი ქცევების სტრუქტურირებულ ერთობლიობად აქცევს. ამის შემდეგ სისტემა აგენერირებს პრობლემურ სცენარებსა და სატესტო შემთხვევებს, უშვებს მათ სამიზნე სისტემაზე და აფასებს მიღებულ შედეგებს. გარდა ამისა, მას შეუძლია ჩაიწეროს ის გზები, რომლებსაც AI სისტემა გადის, მათ შორის შუალედური მოქმედებები და სხვა ინსტრუმენტების გამოძახება, რაც დეველოპერებს საშუალებას აძლევს, ზუსტად დაინახონ, სად მოხდა შეცდომა.

მორგება და კონტროლი

დეველოპერებს შეუძლიათ სისტემას მიაწოდონ კონტექსტი, ინსტრუმენტები და შეზღუდვები, რათა შეფასების პროცესი კიდევ უფრო მეტად მოარგონ საკუთარ საჭიროებებს. მაგალითად, დეველოპერმა შეიძლება მიუთითოს, რომ დოკუმენტების კვლევის AI აგენტმა არ უნდა გაუგზავნოს ელფოსტა კომპანიის გარეთ მყოფ პირებს, კონფიდენციალური ინფორმაცია მხოლოდ მაღალი რანგის მენეჯერებისთვის (C-level) უნდა იყოს ხელმისაწვდომი და პასუხები უნდა იყოს მოკლე რეზიუმეების სახით, წინა კონტექსტის გათვალისწინებით.

ASSERT-ი ამ წესებს გამოიყენებს სატესტო შემთხვევების შესაქმნელად, რომლებიც მუდმივ რეჟიმში შეამოწმებენ, რამდენად იცავს სისტემა დადგენილ ნორმებს.

Microsoft-ის განმარტებით, ეს ჩარჩო ავსებს იმ სიცარიელეს, რომელსაც ზოგადი შეფასების მეთოდები ვერ ფარავს, განსაკუთრებით მაშინ, როდესაც AI მოდელის ქცევა კონკრეტული აპლიკაციის კონტექსტით, პოლიტიკითა და ინსტრუმენტებით არის განპირობებული.

სანდო სისტემების მშენებლობა

„ერთ-ერთი რამ, რაც ვისწავლეთ, არის ის, რომ შეფასებები კრიტიკულად მნიშვნელოვანია სწორი გადაწყვეტილებების მისაღებად“, — განაცხადა სარა ბერდმა, Microsoft-ის პასუხისმგებლიანი AI-ის პროდუქტების მთავარმა ოფიცერმა. „თუ არ გესმით AI სისტემის ქცევა, რთულია იმის ცოდნა, შეესაბამება თუ არა ის თქვენი ორგანიზაციის სტანდარტებს... ჩვენ აღმოვაჩინეთ, რომ ჭეშმარიტად სანდო სისტემის შესაქმნელად საჭიროა ბევრად მეტი აპლიკაციაზე მორგებული განზომილების შეფასება“.

ბერდის თქმით, ASSERT-ის გამოყენება შესაძლებელია სისტემების მშენებლობის პროცესში, მათი დანერგვის შემდეგ და უწყვეტი მონიტორინგისთვისაც კი. ეს სიახლე AI ინდუსტრიაში მიმდინარე უფრო ფართო ცვლილების ნაწილია. მოდელების შესაძლებლობების ზრდასთან ერთად, მკვლევრები სულ უფრო მეტ ყურადღებას აქცევენ განმეორებად ტესტირებასა და რეგრესიულ შემოწმებებს. ამ მიმართულებით მუშაობენ ისეთი ჯგუფებიც, როგორიცაა Stanford-ის HELM, MLCommons-ის AILuminate და METR, რომლებიც სხვადასხვა პირობებში მოდელების ქცევის გასაზომ ბენჩმარკებს ქმნიან.

მორგება და კონტროლი

სანდო სისტემების მშენებლობა

მსგავსი სტატიები

SpaceX-მა Reflection AI-სთან $6.3-მილიარდიანი შეთანხმება გააფორმა

Amazon ინდოეთში Alexa+-ის ტესტირებას იწყებს: დაემატება ჰინდი ენის მხარდაჭერა

Google DeepMind-ი ჰოლივუდში იჭრება: $75-მილიონიანი ინვესტიცია სტუდია A24-ში AI-ინსტრუმენტების შესაქმნელად