Google DeepMind-მა Project Genie წარადგინა: როგორ შევქმნათ ინტერაქციული ვირტუალური სამყაროები ხელოვნური ინტელექტის დახმარებით

Google DeepMind-მა Project Genie-ზე წვდომა გახსნა. ეს არის ხელოვნური ინტელექტის ინსტრუმენტი, რომელიც ტექსტური მითითებების (prompts) ან სურათების საფუძველზე ინტერაქციულ სათამაშო სამყაროებს ქმნის. აშშ-ში Google AI Ultra-ს გამომწერებს უკვე შეუძლიათ ამ ექსპერიმენტული კვლევითი პროტოტიპით სარგებლობა, რომელიც Google-ის უახლესი მსოფლიო მოდელის, Genie 3-ის, გამოსახულების გენერირების მოდელის, Nano Banana Pro-სა და Gemini-ს კომბინაციით მუშაობს.

ეს ნაბიჯი DeepMind-ის უფრო ფართო სტრატეგიის ნაწილია, რომელიც მომხმარებელთა უკუკავშირისა და მონაცემების შეგროვებას ისახავს მიზნად უფრო მძლავრი მსოფლიო მოდელების შესაქმნელად. მსოფლიო მოდელები ხელოვნური ინტელექტის სისტემებია, რომლებიც გარემოს შიდა რეპრეზენტაციას აგენერირებენ და მათი გამოყენება მომავალი შედეგების პროგნოზირებისა და მოქმედებების დაგეგმვისთვისაა შესაძლებელი. DeepMind-ის ლიდერებს სჯერათ, რომ მსოფლიო მოდელები გადამწყვეტი ნაბიჯია ზოგადი ხელოვნური ინტელექტის (AGI) მისაღწევად.

Project Genie-ს გამოშვება ემთხვევა მსოფლიო მოდელების სფეროში კონკურენციის გამძაფრებას. გასული წლის ბოლოს ფეი-ფეი ლის World Labs-მა გამოუშვა პირველი კომერციული პროდუქტი Marble, ხოლო ვიდეო გენერაციის სტარტაპმა Runway-მ ასევე წარადგინა საკუთარი მსოფლიო მოდელი. გარდა ამისა, Meta-ს ყოფილი მთავარი მეცნიერის, იან ლეკუნის სტარტაპი AMI Labs, ასევე ამ მიმართულებით მუშაობს. DeepMind-ის კვლევითი დირექტორი, შლომი ფრუხტერი, აღნიშნავს, რომ პროექტის საჯაროობა მნიშვნელოვანია მომხმარებელთა უკუკავშირის მისაღებად, თუმცა ხაზს უსვამს ინსტრუმენტის ექსპერიმენტულ ბუნებას.

როგორ მუშაობს Project Genie: ნაბიჯ-ნაბიჯ ინსტრუქცია

ინსტრუმენტი მომხმარებელს საშუალებას აძლევს, ნულიდან შექმნას სათამაშო გარემო. პროცესი რამდენიმე ეტაპისგან შედგება:

1. სამყაროს ესკიზის (World Sketch) შექმნა

მომხმარებელი იწყებს ტექსტური მითითებების (prompts) შეყვანით, სადაც აღწერს როგორც გარემოს, ისე მთავარ პერსონაჟს. მოგვიანებით ამ პერსონაჟის მართვა შესაძლებელი იქნება როგორც პირველი, ისე მესამე პირის ხედვით.

2. გამოსახულების გენერირება და მოდიფიკაცია

Nano Banana Pro ქმნის სურათს მითითებების საფუძველზე. თეორიულად, მომხმარებელს შეუძლია ამ გამოსახულების შეცვლა, სანამ Genie მას ინტერაქციული სამყაროს საწყის წერტილად გამოიყენებს. აღსანიშნავია, რომ მოდელი ზოგჯერ უზუსტობებს უშვებს — მაგალითად, მწვანე თმის ნაცვლად შესაძლოა იასამნისფერი დააგენერიროს.

3. რეალური ფოტოების გამოყენება

სამყაროს შესაქმნელად საბაზისო მასალად შესაძლებელია რეალური ფოტოების გამოყენებაც. მოდელი ცდილობს ფოტოზე არსებული ობიექტების გაციფრულებას და მათ ინტერაქციულ ელემენტებად ქცევას.

4. სამყაროს გენერირება და კვლევა

გამოსახულების დადასტურების შემდეგ, Project Genie-ს რამდენიმე წამი სჭირდება გამოსაკვლევი სამყაროს შესაქმნელად. მომხმარებელს შეუძლია:

არსებული სამყაროების „რემიქსის“ გაკეთება მათი მითითებების საფუძველზე;
გალერეაში არსებული კურირებული სამყაროების დათვალიერება;
შემთხვევითი შერჩევის (randomizer) ხელსაწყოს გამოყენება შთაგონებისთვის;
შექმნილი სამყაროს ვიდეო ჩანაწერის ჩამოტვირთვა.

ტექნიკური შეზღუდვები და გამოთვლითი რესურსები

ამ ეტაპზე DeepMind სამყაროს გენერირებისა და ნავიგაციისთვის მხოლოდ 60 წამს გამოყოფს. ეს განპირობებულია ბიუჯეტისა და გამოთვლითი რესურსების (compute) სიმცირით. ვინაიდან Genie 3 ავტორეგრესიული მოდელია, ის მოითხოვს დიდ გამოთვლით სიმძლავრეს. შლომი ფრუხტერის განმარტებით, სესიის დროს თითოეული მომხმარებლისთვის გამოყოფილია კონკრეტული ჩიპი, რაც ზღუდავს ხელმისაწვდომობას.

უსაფრთხოება და საავტორო უფლებები

მოდელში უკვე ინტეგრირებულია უსაფრთხოების მექანიზმები. აკრძალულია სიშიშვლის ან საავტორო უფლებებით დაცული მასალის გენერირება. მაგალითად, მოდელი ბლოკავს Disney-ს პერსონაჟებთან დაკავშირებულ მოთხოვნებს, რაც გამოწვეულია გასული წლის დეკემბერში Disney-ს მიერ Google-ის წინააღმდეგ წაყენებული ბრალდებებით ინტელექტუალური საკუთრების უნებართვო გამოყენების შესახებ.

შესაძლებლობები და ხარვეზები

Project Genie საუკეთესო შედეგებს აჩვენებს მხატვრული სტილის მითითებებისას, როგორიცაა აკვარელი, ანიმე ან კლასიკური მულტფილმის ესთეტიკა. მაგალითად, მოდელმა წარმატებით შექმნა „პლასტილინის ანიმაციის“ (claymation) სტილის სამყარო მარშმელოუს ციხესიმაგრითა და შოკოლადის მდინარით.

თუმცა, ინსტრუმენტს აქვს გარკვეული სირთულეებიც:

ფოტორეალიზმი: მოდელს უჭირს რეალისტური ან კინემატოგრაფიული სამყაროების შექმნა; ისინი ხშირად ციფრულ თამაშს უფრო ჰგავს, ვიდრე რეალობას.
ინტერაქცია: პერსონაჟები ზოგჯერ კედლებში ან მყარ ობიექტებში გადიან.
ნავიგაცია: მართვა ხდება ისრებით, Spacebar-ით (ხტომა) და W-A-S-D კლავიშებით. მომხმარებლები ხშირად აღნიშნავენ, რომ კლავიშები დაგვიანებით რეაგირებს ან მოძრაობა ქაოტურია.
მეხსიერება: მოდელი ზოგადად ინარჩუნებს გარემოს თანმიმდევრულობას, თუმცა იშვიათად შესაძლოა ობიექტები (მაგალითად, ჭიქა მაგიდაზე) მოულოდნელად გაორმაგდეს ტერიტორიაზე დაბრუნებისას.

DeepMind-ის გუნდი გეგმავს რეალიზმისა და ინტერაქციის გაუმჯობესებას, რათა მომხმარებლებს მეტი კონტროლი ჰქონდეთ მოქმედებებსა და გარემოზე. მიუხედავად იმისა, რომ Project Genie ჯერ კიდევ ადრეულ ეტაპზეა, ის უკვე იძლევა უნიკალურ შესაძლებლობას, რომელიც სხვა გზით ამჟამად მიუღწეველია.