Skip to main content
ხელოვნური ინტელექტი2.6.20262 ნახვა

Microsoft-ის ახალი ინსტრუმენტი დეველოპერებს ხელოვნური ინტელექტის ქცევის ტესტირებას ტექსტური აღწერილობებით უმარტივებს

Microsoft-მა წარადგინა ღია კოდის მქონე ჩარჩო ASSERT, რომელიც დეველოპერებს საშუალებას აძლევს, ბუნებრივ ენაზე დაწერილი ინსტრუქციებით შექმნან და შეამოწმონ AI სისტემების ქცევის წესები.

Microsoft-ის ახალი ინსტრუმენტი დეველოპერებს ხელოვნური ინტელექტის ქცევის ტესტირებას ტექსტური აღწერილობებით უმარტივებს

ხელოვნური ინტელექტის მკვლევრებმა და ლაბორატორიებმა მნიშვნელოვან პროგრესს მიაღწიეს AI მოდელების შეფასების კუთხით — იქნება ეს უსაფრთხოება, შესაბამისობა თუ ეთიკური ნორმების დაცვა. თუმცა, კომპანიები და დეველოპერები ახალი, სპეციფიკური გამოწვევის წინაშე დადგნენ: მათ უნდა უზრუნველყონ, რომ ხელოვნური ინტელექტის სისტემა ზუსტად ისე იქცეოდეს, როგორც ეს კონკრეტული პროდუქტისთვის ან სერვისისთვის არის საჭირო.

ამ პროცესის გასამარტივებლად, Microsoft-მა წარადგინა ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing). ეს არის ღია კოდის მქონე ჩარჩო (framework), რომელიც აპლიკაციაზე მორგებული AI ქცევის შეფასებას ამარტივებს. ინსტრუმენტი იყენებს ხელოვნურ ინტელექტს, რათა მაღალი დონის, ბუნებრივ ენაზე დაწერილი მიზნები, პოლიტიკა ან სასურველი ქცევები დეტალურ, ქულებით შეფასებად ტესტებად გარდაქმნას.

ASSERT-ი იღებს AI მოდელის მოსალოდნელი ქცევისა და წესების მარტივ აღწერილობას და მათ მისაღები და მიუღებელი ქცევების სტრუქტურირებულ ერთობლიობად აქცევს. ამის შემდეგ სისტემა აგენერირებს პრობლემურ სცენარებსა და სატესტო შემთხვევებს, უშვებს მათ სამიზნე სისტემაზე და აფასებს მიღებულ შედეგებს. გარდა ამისა, მას შეუძლია ჩაიწეროს ის გზები, რომლებსაც AI სისტემა გადის, მათ შორის შუალედური მოქმედებები და სხვა ინსტრუმენტების გამოძახება, რაც დეველოპერებს საშუალებას აძლევს, ზუსტად დაინახონ, სად მოხდა შეცდომა.

მორგება და კონტროლი

დეველოპერებს შეუძლიათ სისტემას მიაწოდონ კონტექსტი, ინსტრუმენტები და შეზღუდვები, რათა შეფასების პროცესი კიდევ უფრო მეტად მოარგონ საკუთარ საჭიროებებს. მაგალითად, დეველოპერმა შეიძლება მიუთითოს, რომ დოკუმენტების კვლევის AI აგენტმა არ უნდა გაუგზავნოს ელფოსტა კომპანიის გარეთ მყოფ პირებს, კონფიდენციალური ინფორმაცია მხოლოდ მაღალი რანგის მენეჯერებისთვის (C-level) უნდა იყოს ხელმისაწვდომი და პასუხები უნდა იყოს მოკლე რეზიუმეების სახით, წინა კონტექსტის გათვალისწინებით.

ASSERT-ი ამ წესებს გამოიყენებს სატესტო შემთხვევების შესაქმნელად, რომლებიც მუდმივ რეჟიმში შეამოწმებენ, რამდენად იცავს სისტემა დადგენილ ნორმებს.

Microsoft-ის ASSERT ჩარჩოს დიაგრამა

Microsoft-ის განმარტებით, ეს ჩარჩო ავსებს იმ სიცარიელეს, რომელსაც ზოგადი შეფასების მეთოდები ვერ ფარავს, განსაკუთრებით მაშინ, როდესაც AI მოდელის ქცევა კონკრეტული აპლიკაციის კონტექსტით, პოლიტიკითა და ინსტრუმენტებით არის განპირობებული.

სანდო სისტემების მშენებლობა

„ერთ-ერთი რამ, რაც ვისწავლეთ, არის ის, რომ შეფასებები კრიტიკულად მნიშვნელოვანია სწორი გადაწყვეტილებების მისაღებად“, — განაცხადა სარა ბერდმა, Microsoft-ის პასუხისმგებლიანი AI-ის პროდუქტების მთავარმა ოფიცერმა. „თუ არ გესმით AI სისტემის ქცევა, რთულია იმის ცოდნა, შეესაბამება თუ არა ის თქვენი ორგანიზაციის სტანდარტებს... ჩვენ აღმოვაჩინეთ, რომ ჭეშმარიტად სანდო სისტემის შესაქმნელად საჭიროა ბევრად მეტი აპლიკაციაზე მორგებული განზომილების შეფასება“.

ბერდის თქმით, ASSERT-ის გამოყენება შესაძლებელია სისტემების მშენებლობის პროცესში, მათი დანერგვის შემდეგ და უწყვეტი მონიტორინგისთვისაც კი. ეს სიახლე AI ინდუსტრიაში მიმდინარე უფრო ფართო ცვლილების ნაწილია. მოდელების შესაძლებლობების ზრდასთან ერთად, მკვლევრები სულ უფრო მეტ ყურადღებას აქცევენ განმეორებად ტესტირებასა და რეგრესიულ შემოწმებებს. ამ მიმართულებით მუშაობენ ისეთი ჯგუფებიც, როგორიცაა Stanford-ის HELM, MLCommons-ის AILuminate და METR, რომლებიც სხვადასხვა პირობებში მოდელების ქცევის გასაზომ ბენჩმარკებს ქმნიან.

წყარო: TechCrunch AI
გაზიარება:

მსგავსი სტატიები

Cyera 12 მილიარდ დოლარიან შეფასებას უმიზნებს: კიბერუსაფრთხოების სტარტაპის რეკორდული მაჩვენებლები
ხელოვნური ინტელექტი

Cyera 12 მილიარდ დოლარიან შეფასებას უმიზნებს: კიბერუსაფრთხოების სტარტაპის რეკორდული მაჩვენებლები

კიბერუსაფრთხოების სტარტაპი Cyera 12 მილიარდ დოლარიან შეფასებას უმიზნებს. მიუხედავად საოპერაციო ზარალისა, კომპანიის შემოსავალი 150 მილიონ დოლარს აჭარბებს.

3.6.2026
მარტინ სკორსეზე ხელოვნური ინტელექტის სტარტაპის, Black Forest Labs-ის პარტნიორი და მრჩეველი გახდა
ხელოვნური ინტელექტი

მარტინ სკორსეზე ხელოვნური ინტელექტის სტარტაპის, Black Forest Labs-ის პარტნიორი და მრჩეველი გახდა

ლეგენდარული რეჟისორი მარტინ სკორსეზე ხელოვნური ინტელექტის სტარტაპ Black Forest Labs-ს შეუერთდა. ტექნოლოგიას ის ექსკლუზიურად სთორიბორდების შესაქმნელად გამოიყენებს.

2.6.2026
Uber-მა თანამშრომლებისთვის AI-ზე ხარჯვის ლიმიტი დააწესა: წლიური ბიუჯეტი ოთხ თვეში ამოიწურა
ხელოვნური ინტელექტი

Uber-მა თანამშრომლებისთვის AI-ზე ხარჯვის ლიმიტი დააწესა: წლიური ბიუჯეტი ოთხ თვეში ამოიწურა

Uber-მა თანამშრომლებისთვის AI-ზე ხარჯვის 1,500-დოლარიანი ლიმიტი დააწესა მას შემდეგ, რაც წლიური ბიუჯეტი სულ რაღაც ოთხ თვეში სრულად აითვისა.

2.6.2026