Skip to main content
ხელოვნური ინტელექტი21.4.20261 ნახვა

ChatGPT-ის ახალი Images 2.0 მოდელი გამოსახულებებში ტექსტის გენერირების ხარისხს რადიკალურად აუმჯობესებს

OpenAI-მ წარადგინა Images 2.0, რომელსაც გამოსახულებებში ტექსტის ზუსტი გენერირება, რთული ინსტრუქციების შესრულება და 2K რეზოლუციის მხარდაჭერა შეუძლია.

ChatGPT-ის ახალი Images 2.0 მოდელი გამოსახულებებში ტექსტის გენერირების ხარისხს რადიკალურად აუმჯობესებს

ადრე ხელოვნური ინტელექტის მიერ შექმნილი გამოსახულების გარჩევა რეალურისგან საკმაოდ მარტივი იყო. სულ რაღაც ორი წლის წინ, გამოსახულების გენერირების მოდელების გამოყენებით მექსიკური რესტორნის მენიუს შექმნა შეუძლებელი იყო ისეთი გამოგონილი კულინარიული ტერმინების გარეშე, როგორიცაა „enchuita“, „churiros“, „burrto“ და „margartas“. თუმცა, ChatGPT-ის სრულიად ახალი Images 2.0 მოდელი უკვე ქმნის ისეთ მენიუებს, რომელთა გამოყენებაც რესტორანში მომხმარებლის მხრიდან ეჭვის გაჩენის გარეშეა შესაძლებელი.

ChatGPT Images 2.0-ის მიერ შექმნილი მენიუ

შედარებისთვის, ქვემოთ მოცემულია შედეგი, რომელიც DALL-E 3-მა ორი წლის წინ დააგენერირა (იმ პერიოდში ChatGPT-ს გამოსახულებების შექმნის ფუნქცია არ ჰქონდა):

Microsoft Designer (DALL-E 3)-ის შედეგი

ხელოვნური ინტელექტის გამოსახულების გენერატორებს ისტორიულად უჭირდათ მართლწერა, რადგან ისინი ძირითადად დიფუზიურ მოდელებს (diffusion models) იყენებდნენ. ეს მოდელები გამოსახულებას „ხმაურისგან“ (noise) აღადგენენ. Lesan AI-ს დამფუძნებელმა და აღმასრულებელმა დირექტორმა, ასმელაშ ტეკა ჰადგუმ 2024 წელს TechCrunch-თან საუბრისას განმარტა, რომ გამოსახულებაზე არსებული წარწერები პიქსელების ძალიან მცირე ნაწილს იკავებს, რის გამოც გენერატორი უფრო მეტად იმ პატერნებს სწავლობს, რომლებიც მეტ პიქსელს მოიცავს.

მას შემდეგ მკვლევრებმა სხვა მექანიზმებიც შეისწავლეს, მაგალითად, ავტორეგრესიული მოდელები (autoregressive models), რომლებიც წინასწარმეტყველებენ, თუ როგორ უნდა გამოიყურებოდეს გამოსახულება და ფუნქციონირებენ უფრო მეტად დიდი ენობრივი მოდელების (LLM) მსგავსად. მიუხედავად იმისა, რომ OpenAI-მ არ დააკონკრეტა, თუ რა ტიპის მოდელი უდევს საფუძვლად Images 2.0-ს, კომპანიამ განმარტა, რომ მას „აზროვნების შესაძლებლობები“ გააჩნია.

Images 2.0-ის ფუნქციური მახასიათებლები

ახალ მოდელს აქვს უნარი მოიძიოს ინფორმაცია ინტერნეტში, შექმნას რამდენიმე გამოსახულება ერთი მითითების (prompt) საფუძველზე და გადაამოწმოს საკუთარი ნამუშევრები. ეს შესაძლებლობები Images 2.0-ს საშუალებას აძლევს შექმნას სხვადასხვა ზომის მარკეტინგული მასალები და მრავალპანელიანი კომიქსები.

OpenAI-ს განცხადებით, Images 2.0-ს ასევე აქვს არალათინური ტექსტების რენდერინგის გაუმჯობესებული უნარი ისეთ ენებზე, როგორიცაა იაპონური, კორეული, ჰინდი და ბენგალური. გასათვალისწინებელია, რომ მოდელის ცოდნის ბაზა 2025 წლის დეკემბრით შემოიფარგლება, რაც შესაძლოა აისახოს უახლეს ამბებთან დაკავშირებული მოთხოვნების სიზუსტეზე.

„Images 2.0 გამოსახულების შექმნისას სპეციფიკურობისა და სიზუსტის უპრეცედენტო დონეს გვთავაზობს. მას არა მხოლოდ რთული ვიზუალური კონცეფციების აღქმა შეუძლია, არამედ ეფექტურად მიჰყვება ინსტრუქციებს, ინარჩუნებს მოთხოვნილ დეტალებს და ამუშავებს ისეთ ელემენტებს, რომლებიც ხშირად პრობლემურია სხვა მოდელებისთვის: მცირე ზომის ტექსტი, იკონოგრაფია, სამომხმარებლო ინტერფეისის (UI) ელემენტები, მჭიდრო კომპოზიციები და დახვეწილი სტილისტური შეზღუდვები. ეს ყველაფერი ხელმისაწვდომია 2K რეზოლუციამდე,“ — ნათქვამია OpenAI-ს პრესრელიზში.

ეს შესაძლებლობები ნიშნავს, რომ გამოსახულების გენერირება არ არის ისეთივე სწრაფი, როგორც ChatGPT-სთვის კითხვის დასმა, თუმცა ისეთი რთული ობიექტის შექმნას, როგორიცაა მრავალპანელიანი კომიქსი, მაინც მხოლოდ რამდენიმე წუთი სჭირდება.

ხელმისაწვდომობა და API

ChatGPT-ისა და Codex-ის ყველა მომხმარებლისთვის Images 2.0-ზე წვდომა სამშაბათიდან გაიხსნება. ფასიანი ვერსიის მომხმარებლები შეძლებენ უფრო მოწინავე შედეგების მიღებას. კომპანია ასევე ხელმისაწვდომს გახდის gpt-image-2 API-ს, რომლის ფასიც დამოკიდებული იქნება გამოსახულების ხარისხსა და რეზოლუციაზე.

წყარო: TechCrunch AI
გაზიარება:

მსგავსი სტატიები

სემ ალტმანი Anthropic-ის ახალ კიბერმოდელს აკრიტიკებს: „ეს შიშზე დაფუძნებული მარკეტინგია“
ხელოვნური ინტელექტი

სემ ალტმანი Anthropic-ის ახალ კიბერმოდელს აკრიტიკებს: „ეს შიშზე დაფუძნებული მარკეტინგია“

OpenAI-ის ხელმძღვანელი სემ ალტმანი Anthropic-ის ახალ მოდელს, Mythos-ს, „შიშზე დაფუძნებულ მარკეტინგს“ უწოდებს და კონკურენტს AI-ს ელიტარულ ჯგუფებში ჩაკეტვის მცდელობაში ადანაშაულებს.

21.4.2026
AI კვლევითმა ლაბორატორიამ NeoCognition-მა 40 მილიონი დოლარი მოიზიდა ადამიანის მსგავსი შემსწავლელი აგენტების შესაქმნელად
ხელოვნური ინტელექტი

AI კვლევითმა ლაბორატორიამ NeoCognition-მა 40 მილიონი დოლარი მოიზიდა ადამიანის მსგავსი შემსწავლელი აგენტების შესაქმნელად

სტარტაპმა NeoCognition-მა 40 მილიონი დოლარი მოიზიდა თვითშემსწავლელი AI აგენტების შესაქმნელად, რომლებსაც ადამიანის მსგავსად ნებისმიერ სფეროში სპეციალიზაცია და დამოუკიდებლად მუშაობა შეეძლებათ.

21.4.2026
Google-მა Chrome-ში Gemini-ს მხარდაჭერა კიდევ 7 ქვეყანაში გააფართოვა
ხელოვნური ინტელექტი

Google-მა Chrome-ში Gemini-ს მხარდაჭერა კიდევ 7 ქვეყანაში გააფართოვა

Google-მა Chrome-ში Gemini-ს ფუნქცია 7 ახალ ქვეყანაში, მათ შორის ავსტრალიასა და იაპონიაში გაუშვა. გაიგეთ მეტი ხელოვნური ინტელექტის ახალი შესაძლებლობების შესახებ.

21.4.2026