ElevenLabs-ის დირექტორი: ხელოვნური ინტელექტის აუდიო მოდელები მალე ჩვეულებრივი პროდუქტი გახდება

ხელოვნური ინტელექტის აუდიო ტექნოლოგიების კომპანია ElevenLabs-ის თანადამფუძნებელი და აღმასრულებელი დირექტორი, მატი სტანიშევსკი, მიიჩნევს, რომ ხელოვნური ინტელექტის მოდელები დროთა განმავლობაში „ჩვეულებრივ პროდუქტად“ ანუ კომოდიტიზებულად იქცევა. ეს საინტერესო განცხადებაა კომპანიის ხელმძღვანელისგან, რომელიც სწორედ ასეთი მოდელების შექმნაზეა ფოკუსირებული. სტანიშევსკიმ ეს მოსაზრება სამშაბათს, TechCrunch Disrupt 2025-ის კონფერენციაზე სიტყვით გამოსვლისას გამოთქვა, სადაც მან ხელოვნური ინტელექტის აუდიო სფეროს მოკლევადიან და გრძელვადიან პერსპექტივებზე ისაუბრა.

სტანიშევსკის თქმით, მისი კომპანიის მკვლევრებმა უკვე შეძლეს მოდელების არქიტექტურის ზოგიერთი სირთულის გადაჭრა და ამ მიმართულებით მუშაობა მომდევნო ერთი-ორი წლის განმავლობაში გაგრძელდება. თუმცა, მისი პროგნოზით, გრძელვადიან პერსპექტივაში სიტუაცია შეიცვლება. „გრძელვადიან პერსპექტივაში, მომდევნო რამდენიმე წელიწადში, ეს ტექნოლოგია ჩვეულებრივ პროდუქტად იქცევა,“ — განაცხადა მან. „მაშინაც კი, თუ განსხვავებები იარსებებს — რაც, ჩემი აზრით, ზოგიერთი ხმისა თუ ენისთვის რეალობა იქნება — თავისთავად, ეს განსხვავებები უფრო მცირე გახდება.“

კითხვაზე, თუ რატომ ამახვილებს ElevenLabs ყურადღებას მოდელების შექმნაზე, თუკი ისინი მალე ისედაც საყოველთაოდ ხელმისაწვდომი გახდება, სტანიშევსკიმ განმარტა, რომ მოკლევადიან პერსპექტივაში სწორედ ეს არის „ყველაზე დიდი უპირატესობა და ყველაზე დიდი ნახტომი, რისი მიღწევაც დღეს შეგიძლიათ“. მისი თქმით, თუ ხელოვნური ინტელექტის მიერ გენერირებული ხმა ან ინტერაქცია კარგად არ ჟღერს, ეს კვლავ გადასაჭრელი პრობლემაა.

„მისი გადაჭრის ერთადერთი გზა... მოდელების საკუთარი ძალებით შექმნაა, შემდეგ კი, გრძელვადიან პერსპექტივაში, გამოჩნდებიან სხვა მოთამაშეებიც, რომლებიც ამას ასევე მოაგვარებენ,“ — აღნიშნა სტანიშევსკიმ. მან ასევე დაამატა, რომ კომპანიები, რომლებიც საიმედო და მასშტაბირებად გადაწყვეტილებებს ეძებენ, სავარაუდოდ, მაინც გამოიყენებენ სხვადასხვა მოდელს კონკრეტული ამოცანებისთვის.

მომავალზე საუბრისას, სტანიშევსკიმ ივარაუდა, რომ მომდევნო ერთი-ორი წლის განმავლობაში მოდელების მზარდი რაოდენობა მულტიმოდალურ ანუ შერწყმულ მიდგომებზე გადავა. „ეს ნიშნავს, რომ თქვენ შექმნით აუდიოსა და ვიდეოს ერთდროულად, ან აუდიოსა და დიდ ენობრივ მოდელებს (LLM) სასაუბრო ფორმატში,“ — განაცხადა მან და ამის მაგალითად Google-ის Veo 3 დაასახელა, როგორც მოდელების წარმატებული კომბინირების ნიმუში.

ElevenLabs-ის დირექტორი: ხელოვნური ინტელექტის აუდიო მოდელები მალე ჩვეულებრივი პროდუქტი გახდება

მსგავსი სტატიები

Anthropic-მა Opus 5 წარადგინა: უფრო მძლავრი, იაფი და ნაკლებად შეზღუდული AI მოდელი

რატომ შეიძინა Cognition-მა Poke: ხელოვნური ინტელექტის „ხასიათი“ ახალ კონკურენტულ უპირატესობად იქცევა