DeepMind-მა SIMA 2 წარადგინა: AI აგენტი, რომელიც ვიდეოთამაშებში Gemini-ს გონებით მოქმედებს

Google DeepMind-მა თავისი უახლესი კვლევა, SIMA 2, წარადგინა. ეს არის ახალი თაობის უნივერსალური ხელოვნური ინტელექტის აგენტი, რომელიც Google-ის მძლავრ ენობრივ მოდელს, Gemini-ს, იყენებს. მისი მიზანია არა მხოლოდ ინსტრუქციების შესრულება, არამედ ვირტუალური გარემოს გააზრება და მასთან ინტერაქცია.

SIMA-ს პირველი ვერსია, რომელიც 2024 წლის მარტში გამოვიდა, ვიდეოთამაშების მონაცემებზე იყო გაწვრთნილი, რათა ადამიანის მსგავსად ეთამაშა სხვადასხვა 3D თამაში. თუმცა, რთული ამოცანების შესრულებისას მისი წარმატების მაჩვენებელი მხოლოდ 31% იყო, მაშინ როცა ადამიანისთვის ეს მაჩვენებელი 71%-ს შეადგენს. DeepMind-ის უფროსი მეცნიერ-მკვლევრის, ჯო მარინოს თქმით, „SIMA 2 შესაძლებლობების თვალსაზრისით მნიშვნელოვანი ნახტომია. ის უფრო ზოგადი აგენტია, რომელსაც შეუძლია რთული ამოცანების შესრულება უცხო გარემოში და საკუთარ გამოცდილებაზე დაყრდნობით განვითარება“.

SIMA 2-ის მუშაობას Gemini 2.5 flash-lite მოდელი უზრუნველყოფს. მისი განვითარება ხელოვნური ზოგადი ინტელექტის (AGI) შექმნისკენ გადადგმული ნაბიჯია — სისტემის, რომელსაც ინტელექტუალური ამოცანების ფართო სპექტრის შესრულება და ცოდნის სხვადასხვა სფეროში განზოგადება შეუძლია. მარინოს განმარტებით, SIMA 2 „განხორციელებული აგენტია“, რომელიც ფიზიკურ ან ვირტუალურ სამყაროსთან სხეულის მეშვეობით ურთიერთობს, ისევე როგორც რობოტი ან ადამიანი.

Gemini-ს ინტეგრაციამ SIMA 2-ის წარმადობა წინამორბედთან შედარებით გააორმაგა. დემონსტრაციისას, როდესაც აგენტს სთხოვეს მისულიყო „მწიფე პომიდვრის ფერის სახლთან“, მან ჯერ იფიქრა — „მწიფე პომიდორი წითელია, შესაბამისად, წითელ სახლთან უნდა მივიდე“ — შემდეგ კი ამოცანა შეასრულა. მას ასევე ესმის ემოჯი-ინსტრუქციები: მაგალითად, 🪓🌲 ბრძანების მიღების შემდეგ, ის ხის მოსაჭრელად მიდის.

DeepMind-ის კიდევ ერთი უფროსი მეცნიერ-მკვლევარი, ჯეინ ვონგი, აღნიშნავს, რომ SIMA 2-ის შესაძლებლობები უბრალო თამაშს სცილდება. „ჩვენ მას ვთხოვთ, გაიგოს, რა ხდება, რას ითხოვს მომხმარებელი და შემდეგ საღი აზრის საფუძველზე იმოქმედოს, რაც საკმაოდ რთულია“, — ამბობს ვონგი. აგენტმა წარმატებით გაიარა ტესტირება DeepMind-ის სხვა მოდელის, Genie-ს მიერ გენერირებულ ფოტორეალისტურ სამყაროებშიც, სადაც მან სწორად ამოიცნო და იმოქმედა ისეთ ობიექტებთან, როგორიცაა სკამები, ხეები და პეპლები.

SIMA 2-ის ერთ-ერთი მთავარი უპირატესობა თვითგანვითარების უნარია. თუ SIMA 1 სრულად ადამიანების თამაშის მონაცემებზე იყო დამოკიდებული, SIMA 2 ამ მონაცემებს მხოლოდ საწყის ბაზად იყენებს. ახალ გარემოში მოხვედრისას, სხვა Gemini მოდელი მისთვის ახალ დავალებებს ქმნის, ხოლო ცალკე შემფასებელი მოდელი მის მცდელობებს აფასებს. ამგვარად, აგენტი საკუთარ შეცდომებზე სწავლობს და ვითარდება, რაც ადამიანის სწავლის პროცესის მსგავსია.

DeepMind-ში მიიჩნევენ, რომ SIMA 2-ის განვითარება უნივერსალური რობოტების შექმნისკენ გადადგმული მნიშვნელოვანი ნაბიჯია. უფროსი ინჟინერ-მკვლევრის, ფრედერიკ ბესეს თქმით, რეალურ სამყაროში მოქმედ რობოტს ორი კომპონენტი სჭირდება: მაღალი დონის გააზრება (მაგალითად, რა არის სამზარეულო) და დაბალი დონის მოქმედებები (ფიზიკური მოძრაობა). SIMA 2 სწორედ პირველ, მაღალი დონის მსჯელობის კომპონენტზეა ფოკუსირებული.

ამ ეტაპზე, გუნდი არ ასახელებს კონკრეტულ ვადებს, თუ როდის შეიძლება SIMA 2-ის ფიზიკურ რობოტებში ინტეგრირება. პროექტის ამჟამინდელი კვლევითი ვერსიის წარდგენის მიზანია მიღწეული პროგრესის ჩვენება და პოტენციური თანამშრომლობის შესაძლებლობების მოძიება.

DeepMind-მა SIMA 2 წარადგინა: AI აგენტი, რომელიც ვიდეოთამაშებში Gemini-ს გონებით მოქმედებს

მსგავსი სტატიები

Pool-ის ახალი აპლიკაცია სკრინშოტებს პრაქტიკულად გამოსაყენებელ ინფორმაციად გარდაქმნის

Deezer-ის ახალი ინსტრუმენტი Spotify-სა და Apple Music-ის ფლეილისტებში ხელოვნური ინტელექტის მიერ შექმნილ მუსიკას ამოიცნობს

SpaceX-ის SPV ინვესტორებმა შესაძლოა საკუთარი წილების რეალური მოცულობა IPO-ს შემდგომი შეზღუდვების მოხსნამდე ვერ გაიგონ