ChatGPT-ის ახალი Images 2.0 მოდელი გამოსახულებებში ტექსტის გენერირების ხარისხს რადიკალურად აუმჯობესებს
OpenAI-მ წარადგინა Images 2.0, რომელსაც გამოსახულებებში ტექსტის ზუსტი გენერირება, რთული ინსტრუქციების შესრულება და 2K რეზოლუციის მხარდაჭერა შეუძლია.

ადრე ხელოვნური ინტელექტის მიერ შექმნილი გამოსახულების გარჩევა რეალურისგან საკმაოდ მარტივი იყო. სულ რაღაც ორი წლის წინ, გამოსახულების გენერირების მოდელების გამოყენებით მექსიკური რესტორნის მენიუს შექმნა შეუძლებელი იყო ისეთი გამოგონილი კულინარიული ტერმინების გარეშე, როგორიცაა „enchuita“, „churiros“, „burrto“ და „margartas“. თუმცა, ChatGPT-ის სრულიად ახალი Images 2.0 მოდელი უკვე ქმნის ისეთ მენიუებს, რომელთა გამოყენებაც რესტორანში მომხმარებლის მხრიდან ეჭვის გაჩენის გარეშეა შესაძლებელი.

შედარებისთვის, ქვემოთ მოცემულია შედეგი, რომელიც DALL-E 3-მა ორი წლის წინ დააგენერირა (იმ პერიოდში ChatGPT-ს გამოსახულებების შექმნის ფუნქცია არ ჰქონდა):

ხელოვნური ინტელექტის გამოსახულების გენერატორებს ისტორიულად უჭირდათ მართლწერა, რადგან ისინი ძირითადად დიფუზიურ მოდელებს (diffusion models) იყენებდნენ. ეს მოდელები გამოსახულებას „ხმაურისგან“ (noise) აღადგენენ. Lesan AI-ს დამფუძნებელმა და აღმასრულებელმა დირექტორმა, ასმელაშ ტეკა ჰადგუმ 2024 წელს TechCrunch-თან საუბრისას განმარტა, რომ გამოსახულებაზე არსებული წარწერები პიქსელების ძალიან მცირე ნაწილს იკავებს, რის გამოც გენერატორი უფრო მეტად იმ პატერნებს სწავლობს, რომლებიც მეტ პიქსელს მოიცავს.
მას შემდეგ მკვლევრებმა სხვა მექანიზმებიც შეისწავლეს, მაგალითად, ავტორეგრესიული მოდელები (autoregressive models), რომლებიც წინასწარმეტყველებენ, თუ როგორ უნდა გამოიყურებოდეს გამოსახულება და ფუნქციონირებენ უფრო მეტად დიდი ენობრივი მოდელების (LLM) მსგავსად. მიუხედავად იმისა, რომ OpenAI-მ არ დააკონკრეტა, თუ რა ტიპის მოდელი უდევს საფუძვლად Images 2.0-ს, კომპანიამ განმარტა, რომ მას „აზროვნების შესაძლებლობები“ გააჩნია.
Images 2.0-ის ფუნქციური მახასიათებლები
ახალ მოდელს აქვს უნარი მოიძიოს ინფორმაცია ინტერნეტში, შექმნას რამდენიმე გამოსახულება ერთი მითითების (prompt) საფუძველზე და გადაამოწმოს საკუთარი ნამუშევრები. ეს შესაძლებლობები Images 2.0-ს საშუალებას აძლევს შექმნას სხვადასხვა ზომის მარკეტინგული მასალები და მრავალპანელიანი კომიქსები.
OpenAI-ს განცხადებით, Images 2.0-ს ასევე აქვს არალათინური ტექსტების რენდერინგის გაუმჯობესებული უნარი ისეთ ენებზე, როგორიცაა იაპონური, კორეული, ჰინდი და ბენგალური. გასათვალისწინებელია, რომ მოდელის ცოდნის ბაზა 2025 წლის დეკემბრით შემოიფარგლება, რაც შესაძლოა აისახოს უახლეს ამბებთან დაკავშირებული მოთხოვნების სიზუსტეზე.
„Images 2.0 გამოსახულების შექმნისას სპეციფიკურობისა და სიზუსტის უპრეცედენტო დონეს გვთავაზობს. მას არა მხოლოდ რთული ვიზუალური კონცეფციების აღქმა შეუძლია, არამედ ეფექტურად მიჰყვება ინსტრუქციებს, ინარჩუნებს მოთხოვნილ დეტალებს და ამუშავებს ისეთ ელემენტებს, რომლებიც ხშირად პრობლემურია სხვა მოდელებისთვის: მცირე ზომის ტექსტი, იკონოგრაფია, სამომხმარებლო ინტერფეისის (UI) ელემენტები, მჭიდრო კომპოზიციები და დახვეწილი სტილისტური შეზღუდვები. ეს ყველაფერი ხელმისაწვდომია 2K რეზოლუციამდე,“ — ნათქვამია OpenAI-ს პრესრელიზში.
ეს შესაძლებლობები ნიშნავს, რომ გამოსახულების გენერირება არ არის ისეთივე სწრაფი, როგორც ChatGPT-სთვის კითხვის დასმა, თუმცა ისეთი რთული ობიექტის შექმნას, როგორიცაა მრავალპანელიანი კომიქსი, მაინც მხოლოდ რამდენიმე წუთი სჭირდება.
ხელმისაწვდომობა და API
ChatGPT-ისა და Codex-ის ყველა მომხმარებლისთვის Images 2.0-ზე წვდომა სამშაბათიდან გაიხსნება. ფასიანი ვერსიის მომხმარებლები შეძლებენ უფრო მოწინავე შედეგების მიღებას. კომპანია ასევე ხელმისაწვდომს გახდის gpt-image-2 API-ს, რომლის ფასიც დამოკიდებული იქნება გამოსახულების ხარისხსა და რეზოლუციაზე.
მსგავსი სტატიები

Nvidia-სთან $20-მილიარდიანი გარიგების შემდეგ, AI ჩიპების სტარტაპი Groq $650 მილიონის მოზიდვას გეგმავს
AI ჩიპების სტარტაპი Groq-ი, Nvidia-სთან გაფორმებული $20-მილიარდიანი შეთანხმების შემდეგ, 650 მილიონი დოლარის მოზიდვას და ინფერენს-ღრუბლოვანი ბიზნესის განვითარებას გეგმავს.

რა ხდება, როდესაც კომპანიები ხელოვნური ინტელექტით ზედმეტად არიან გატაცებულნი?
Box-ის დამფუძნებელი აარონ ლევი „AI ფსიქოზზე“ საუბრობს, ხოლო კომპანიები სამუშაო ადგილებს ხელოვნური ინტელექტის აგენტებით ანაცვლებენ.

Asana-მ 75 მილიონ დოლარად StackAI შეიძინა: კომპანია ხელოვნურ ინტელექტზე დაფუძნებულ სამუშაო პლატფორმად გარდაიქმნება
Asana-მ 75 მილიონ დოლარად StackAI შეიძინა, რათა ხელოვნურ ინტელექტზე დაფუძნებულ სამუშაო პლატფორმად გარდაიქმნას და ბიზნეს პროცესების ავტომატიზაცია გააძლიეროს.