Skip to main content
ხელოვნური ინტელექტი21.4.20262 ნახვა

ChatGPT-ის ახალი Images 2.0 მოდელი გამოსახულებებში ტექსტის გენერირების ხარისხს რადიკალურად აუმჯობესებს

OpenAI-მ წარადგინა Images 2.0, რომელსაც გამოსახულებებში ტექსტის ზუსტი გენერირება, რთული ინსტრუქციების შესრულება და 2K რეზოლუციის მხარდაჭერა შეუძლია.

ChatGPT-ის ახალი Images 2.0 მოდელი გამოსახულებებში ტექსტის გენერირების ხარისხს რადიკალურად აუმჯობესებს

ადრე ხელოვნური ინტელექტის მიერ შექმნილი გამოსახულების გარჩევა რეალურისგან საკმაოდ მარტივი იყო. სულ რაღაც ორი წლის წინ, გამოსახულების გენერირების მოდელების გამოყენებით მექსიკური რესტორნის მენიუს შექმნა შეუძლებელი იყო ისეთი გამოგონილი კულინარიული ტერმინების გარეშე, როგორიცაა „enchuita“, „churiros“, „burrto“ და „margartas“. თუმცა, ChatGPT-ის სრულიად ახალი Images 2.0 მოდელი უკვე ქმნის ისეთ მენიუებს, რომელთა გამოყენებაც რესტორანში მომხმარებლის მხრიდან ეჭვის გაჩენის გარეშეა შესაძლებელი.

ChatGPT Images 2.0-ის მიერ შექმნილი მენიუ

შედარებისთვის, ქვემოთ მოცემულია შედეგი, რომელიც DALL-E 3-მა ორი წლის წინ დააგენერირა (იმ პერიოდში ChatGPT-ს გამოსახულებების შექმნის ფუნქცია არ ჰქონდა):

Microsoft Designer (DALL-E 3)-ის შედეგი

ხელოვნური ინტელექტის გამოსახულების გენერატორებს ისტორიულად უჭირდათ მართლწერა, რადგან ისინი ძირითადად დიფუზიურ მოდელებს (diffusion models) იყენებდნენ. ეს მოდელები გამოსახულებას „ხმაურისგან“ (noise) აღადგენენ. Lesan AI-ს დამფუძნებელმა და აღმასრულებელმა დირექტორმა, ასმელაშ ტეკა ჰადგუმ 2024 წელს TechCrunch-თან საუბრისას განმარტა, რომ გამოსახულებაზე არსებული წარწერები პიქსელების ძალიან მცირე ნაწილს იკავებს, რის გამოც გენერატორი უფრო მეტად იმ პატერნებს სწავლობს, რომლებიც მეტ პიქსელს მოიცავს.

მას შემდეგ მკვლევრებმა სხვა მექანიზმებიც შეისწავლეს, მაგალითად, ავტორეგრესიული მოდელები (autoregressive models), რომლებიც წინასწარმეტყველებენ, თუ როგორ უნდა გამოიყურებოდეს გამოსახულება და ფუნქციონირებენ უფრო მეტად დიდი ენობრივი მოდელების (LLM) მსგავსად. მიუხედავად იმისა, რომ OpenAI-მ არ დააკონკრეტა, თუ რა ტიპის მოდელი უდევს საფუძვლად Images 2.0-ს, კომპანიამ განმარტა, რომ მას „აზროვნების შესაძლებლობები“ გააჩნია.

Images 2.0-ის ფუნქციური მახასიათებლები

ახალ მოდელს აქვს უნარი მოიძიოს ინფორმაცია ინტერნეტში, შექმნას რამდენიმე გამოსახულება ერთი მითითების (prompt) საფუძველზე და გადაამოწმოს საკუთარი ნამუშევრები. ეს შესაძლებლობები Images 2.0-ს საშუალებას აძლევს შექმნას სხვადასხვა ზომის მარკეტინგული მასალები და მრავალპანელიანი კომიქსები.

OpenAI-ს განცხადებით, Images 2.0-ს ასევე აქვს არალათინური ტექსტების რენდერინგის გაუმჯობესებული უნარი ისეთ ენებზე, როგორიცაა იაპონური, კორეული, ჰინდი და ბენგალური. გასათვალისწინებელია, რომ მოდელის ცოდნის ბაზა 2025 წლის დეკემბრით შემოიფარგლება, რაც შესაძლოა აისახოს უახლეს ამბებთან დაკავშირებული მოთხოვნების სიზუსტეზე.

„Images 2.0 გამოსახულების შექმნისას სპეციფიკურობისა და სიზუსტის უპრეცედენტო დონეს გვთავაზობს. მას არა მხოლოდ რთული ვიზუალური კონცეფციების აღქმა შეუძლია, არამედ ეფექტურად მიჰყვება ინსტრუქციებს, ინარჩუნებს მოთხოვნილ დეტალებს და ამუშავებს ისეთ ელემენტებს, რომლებიც ხშირად პრობლემურია სხვა მოდელებისთვის: მცირე ზომის ტექსტი, იკონოგრაფია, სამომხმარებლო ინტერფეისის (UI) ელემენტები, მჭიდრო კომპოზიციები და დახვეწილი სტილისტური შეზღუდვები. ეს ყველაფერი ხელმისაწვდომია 2K რეზოლუციამდე,“ — ნათქვამია OpenAI-ს პრესრელიზში.

ეს შესაძლებლობები ნიშნავს, რომ გამოსახულების გენერირება არ არის ისეთივე სწრაფი, როგორც ChatGPT-სთვის კითხვის დასმა, თუმცა ისეთი რთული ობიექტის შექმნას, როგორიცაა მრავალპანელიანი კომიქსი, მაინც მხოლოდ რამდენიმე წუთი სჭირდება.

ხელმისაწვდომობა და API

ChatGPT-ისა და Codex-ის ყველა მომხმარებლისთვის Images 2.0-ზე წვდომა სამშაბათიდან გაიხსნება. ფასიანი ვერსიის მომხმარებლები შეძლებენ უფრო მოწინავე შედეგების მიღებას. კომპანია ასევე ხელმისაწვდომს გახდის gpt-image-2 API-ს, რომლის ფასიც დამოკიდებული იქნება გამოსახულების ხარისხსა და რეზოლუციაზე.

წყარო: TechCrunch AI
გაზიარება:

მსგავსი სტატიები

Nvidia-სთან $20-მილიარდიანი გარიგების შემდეგ, AI ჩიპების სტარტაპი Groq $650 მილიონის მოზიდვას გეგმავს
ხელოვნური ინტელექტი

Nvidia-სთან $20-მილიარდიანი გარიგების შემდეგ, AI ჩიპების სტარტაპი Groq $650 მილიონის მოზიდვას გეგმავს

AI ჩიპების სტარტაპი Groq-ი, Nvidia-სთან გაფორმებული $20-მილიარდიანი შეთანხმების შემდეგ, 650 მილიონი დოლარის მოზიდვას და ინფერენს-ღრუბლოვანი ბიზნესის განვითარებას გეგმავს.

29.5.2026
რა ხდება, როდესაც კომპანიები ხელოვნური ინტელექტით ზედმეტად არიან გატაცებულნი?
ხელოვნური ინტელექტი

რა ხდება, როდესაც კომპანიები ხელოვნური ინტელექტით ზედმეტად არიან გატაცებულნი?

Box-ის დამფუძნებელი აარონ ლევი „AI ფსიქოზზე“ საუბრობს, ხოლო კომპანიები სამუშაო ადგილებს ხელოვნური ინტელექტის აგენტებით ანაცვლებენ.

29.5.2026
Asana-მ 75 მილიონ დოლარად StackAI შეიძინა: კომპანია ხელოვნურ ინტელექტზე დაფუძნებულ სამუშაო პლატფორმად გარდაიქმნება
ხელოვნური ინტელექტი

Asana-მ 75 მილიონ დოლარად StackAI შეიძინა: კომპანია ხელოვნურ ინტელექტზე დაფუძნებულ სამუშაო პლატფორმად გარდაიქმნება

Asana-მ 75 მილიონ დოლარად StackAI შეიძინა, რათა ხელოვნურ ინტელექტზე დაფუძნებულ სამუშაო პლატფორმად გარდაიქმნას და ბიზნეს პროცესების ავტომატიზაცია გააძლიეროს.

29.5.2026