ChatGPT-ის ახალი Images 2.0 მოდელი გამოსახულებებში ტექსტის გენერირების ხარისხს რადიკალურად აუმჯობესებს

ადრე ხელოვნური ინტელექტის მიერ შექმნილი გამოსახულების გარჩევა რეალურისგან საკმაოდ მარტივი იყო. სულ რაღაც ორი წლის წინ, გამოსახულების გენერირების მოდელების გამოყენებით მექსიკური რესტორნის მენიუს შექმნა შეუძლებელი იყო ისეთი გამოგონილი კულინარიული ტერმინების გარეშე, როგორიცაა „enchuita“, „churiros“, „burrto“ და „margartas“. თუმცა, ChatGPT-ის სრულიად ახალი Images 2.0 მოდელი უკვე ქმნის ისეთ მენიუებს, რომელთა გამოყენებაც რესტორანში მომხმარებლის მხრიდან ეჭვის გაჩენის გარეშეა შესაძლებელი.

ChatGPT Images 2.0-ის მიერ შექმნილი მენიუ

შედარებისთვის, ქვემოთ მოცემულია შედეგი, რომელიც DALL-E 3-მა ორი წლის წინ დააგენერირა (იმ პერიოდში ChatGPT-ს გამოსახულებების შექმნის ფუნქცია არ ჰქონდა):

Microsoft Designer (DALL-E 3)-ის შედეგი

ხელოვნური ინტელექტის გამოსახულების გენერატორებს ისტორიულად უჭირდათ მართლწერა, რადგან ისინი ძირითადად დიფუზიურ მოდელებს (diffusion models) იყენებდნენ. ეს მოდელები გამოსახულებას „ხმაურისგან“ (noise) აღადგენენ. Lesan AI-ს დამფუძნებელმა და აღმასრულებელმა დირექტორმა, ასმელაშ ტეკა ჰადგუმ 2024 წელს TechCrunch-თან საუბრისას განმარტა, რომ გამოსახულებაზე არსებული წარწერები პიქსელების ძალიან მცირე ნაწილს იკავებს, რის გამოც გენერატორი უფრო მეტად იმ პატერნებს სწავლობს, რომლებიც მეტ პიქსელს მოიცავს.

მას შემდეგ მკვლევრებმა სხვა მექანიზმებიც შეისწავლეს, მაგალითად, ავტორეგრესიული მოდელები (autoregressive models), რომლებიც წინასწარმეტყველებენ, თუ როგორ უნდა გამოიყურებოდეს გამოსახულება და ფუნქციონირებენ უფრო მეტად დიდი ენობრივი მოდელების (LLM) მსგავსად. მიუხედავად იმისა, რომ OpenAI-მ არ დააკონკრეტა, თუ რა ტიპის მოდელი უდევს საფუძვლად Images 2.0-ს, კომპანიამ განმარტა, რომ მას „აზროვნების შესაძლებლობები“ გააჩნია.

Images 2.0-ის ფუნქციური მახასიათებლები

ახალ მოდელს აქვს უნარი მოიძიოს ინფორმაცია ინტერნეტში, შექმნას რამდენიმე გამოსახულება ერთი მითითების (prompt) საფუძველზე და გადაამოწმოს საკუთარი ნამუშევრები. ეს შესაძლებლობები Images 2.0-ს საშუალებას აძლევს შექმნას სხვადასხვა ზომის მარკეტინგული მასალები და მრავალპანელიანი კომიქსები.

OpenAI-ს განცხადებით, Images 2.0-ს ასევე აქვს არალათინური ტექსტების რენდერინგის გაუმჯობესებული უნარი ისეთ ენებზე, როგორიცაა იაპონური, კორეული, ჰინდი და ბენგალური. გასათვალისწინებელია, რომ მოდელის ცოდნის ბაზა 2025 წლის დეკემბრით შემოიფარგლება, რაც შესაძლოა აისახოს უახლეს ამბებთან დაკავშირებული მოთხოვნების სიზუსტეზე.

„Images 2.0 გამოსახულების შექმნისას სპეციფიკურობისა და სიზუსტის უპრეცედენტო დონეს გვთავაზობს. მას არა მხოლოდ რთული ვიზუალური კონცეფციების აღქმა შეუძლია, არამედ ეფექტურად მიჰყვება ინსტრუქციებს, ინარჩუნებს მოთხოვნილ დეტალებს და ამუშავებს ისეთ ელემენტებს, რომლებიც ხშირად პრობლემურია სხვა მოდელებისთვის: მცირე ზომის ტექსტი, იკონოგრაფია, სამომხმარებლო ინტერფეისის (UI) ელემენტები, მჭიდრო კომპოზიციები და დახვეწილი სტილისტური შეზღუდვები. ეს ყველაფერი ხელმისაწვდომია 2K რეზოლუციამდე,“ — ნათქვამია OpenAI-ს პრესრელიზში.

ეს შესაძლებლობები ნიშნავს, რომ გამოსახულების გენერირება არ არის ისეთივე სწრაფი, როგორც ChatGPT-სთვის კითხვის დასმა, თუმცა ისეთი რთული ობიექტის შექმნას, როგორიცაა მრავალპანელიანი კომიქსი, მაინც მხოლოდ რამდენიმე წუთი სჭირდება.

ხელმისაწვდომობა და API

ChatGPT-ისა და Codex-ის ყველა მომხმარებლისთვის Images 2.0-ზე წვდომა სამშაბათიდან გაიხსნება. ფასიანი ვერსიის მომხმარებლები შეძლებენ უფრო მოწინავე შედეგების მიღებას. კომპანია ასევე ხელმისაწვდომს გახდის gpt-image-2 API-ს, რომლის ფასიც დამოკიდებული იქნება გამოსახულების ხარისხსა და რეზოლუციაზე.

ChatGPT-ის ახალი Images 2.0 მოდელი გამოსახულებებში ტექსტის გენერირების ხარისხს რადიკალურად აუმჯობესებს

Images 2.0-ის ფუნქციური მახასიათებლები

ხელმისაწვდომობა და API

მსგავსი სტატიები

მილიარდერ მუკეშ ამბანის სურს, ხელოვნური ინტელექტი ყველა სატელეფონო ზარში, აპლიკაციასა და სახლში დანერგოს

აშშ-მ Anthropic-ის Fable 5-ის გამოშვება აკრძალა, თუმცა ციფრებზე ეს არ ასახულა

ეხმარება თუ არა აშშ-ის მთავრობის მიერ დაწესებული აკრძალვა Anthropic-ის ბრენდს?