OpenAI-მ API-სთვის ხმოვანი ინტელექტის ახალი ფუნქციები წარადგინა
OpenAI-მ API-სთვის ხმოვანი ინტელექტის ახალი მოდელები წარადგინა, რომლებიც რეალურ დროში თარგმნის, ტრანსკრიფციისა და რთული ლოგიკური ამოცანების შესრულების საშუალებას იძლევა.

OpenAI-მ ხუთშაბათს განაცხადა, რომ მის API-ს ხმოვანი ინტელექტის რამდენიმე ახალი ფუნქცია დაემატება. ეს სიახლეები დეველოპერებს საშუალებას მისცემს, შექმნან აპლიკაციები, რომლებსაც მომხმარებლებთან საუბარი, საუბრის ტრანსკრიფცია და თარგმნა შეეძლებათ.
კომპანიის ახალი მოდელი, GPT-Realtime-2, შექმნილია რეალისტური ვოკალური სიმულაციისთვის, რომელსაც მომხმარებლებთან დიალოგის წარმართვა შეუძლია. მისი წინამორბედისგან (GPT-Realtime-1.5) განსხვავებით, ეს ვერსია დაფუძნებულია GPT-5 კლასის ლოგიკურ აზროვნებაზე (reasoning), რაც OpenAI-ის განცხადებით, მომხმარებლის რთული მოთხოვნების უკეთ დამუშავებას უზრუნველყოფს.
ახალი ფუნქციების მიმოხილვა
OpenAI-მ ერთდროულად რამდენიმე მნიშვნელოვანი ინსტრუმენტი წარადგინა, რომლებიც ხმოვან ინტერფეისებთან მუშაობას ამარტივებს:
- GPT-Realtime-Translate: ეს ფუნქცია უზრუნველყოფს რეალურ დროში თარგმნის სერვისს, რომელიც საუბრის ტემპს მიჰყვება. სისტემას შეუძლია 70-ზე მეტი შესაყვანი ენის აღქმა და 13 გამომავალ ენაზე პასუხის გაცემა.
- GPT-Realtime-Whisper: ახალი ტრანსკრიფციის შესაძლებლობა, რომელიც მომხმარებლებს მეტყველების ტექსტად გარდაქმნის (speech-to-text) ფუნქციას სთავაზობს უშუალოდ ინტერაქციის პროცესში.
„წარდგენილი მოდელები რეალურ დროში აუდიოს მარტივი კითხვა-პასუხის რეჟიმიდან სრულფასოვან ხმოვან ინტერფეისებად აქცევს, რომლებსაც რეალური სამუშაოს შესრულება შეუძლიათ: მოსმენა, ლოგიკური მსჯელობა, თარგმნა, ტრანსკრიფცია და მოქმედება საუბრის მიმდინარეობისას“, — აცხადებენ კომპანიაში.
გამოყენების სფეროები და უსაფრთხოება
ეს განახლებები განსაკუთრებით მიმზიდველია იმ კომპანიებისთვის, რომლებსაც მომხმარებელთა მომსახურების შესაძლებლობების გაფართოება სურთ. თუმცა, OpenAI ასევე აღნიშნავს, რომ ახალი ფუნქციები სასარგებლო იქნება სხვადასხვა სფეროში, მათ შორის განათლებაში, მედიაში, ღონისძიებების მართვასა და კრეატორთა პლატფორმებზე.
მიუხედავად ტექნოლოგიის სარგებლიანობისა, არსებობს მისი ბოროტად გამოყენების რისკიც. კომპანიამ დანერგა დამცავი მექანიზმები (guardrails) სპამის, თაღლითობისა და სხვა სახის ონლაინ დარღვევების თავიდან ასაცილებლად. სისტემაში ჩაშენებულია სპეციალური ტრიგერები, რომელთა მეშვეობითაც საუბარი შეიძლება შეწყდეს, თუ გამოვლინდება მავნე კონტენტის შესახებ გაიდლაინების დარღვევა.
ხმოვანი მოდელები ხელმისაწვდომია OpenAI-ის Realtime API-ში. ფასწარმოების მოდელი განსხვავებულია: Translate და Whisper-ის საფასური წუთობრივად ითვლება, ხოლო GPT-Realtime-2-ის ღირებულება ტოკენების მოხმარებაზეა დამოკიდებული.
მსგავსი სტატიები

Amazon-ი Nvidia-ს დომინირების გამოწვევას საკუთარი AI ჩიპების გაყიდვით გეგმავს
Amazon-ი გეგმავს საკუთარი AI ჩიპების, Trainium-ის გაყიდვას, რითაც Nvidia-ს დომინირებას გამოწვევას უცხადებს. კომპანიის პროგნოზით, ჩიპების ბიზნესის წლიურმა ბრუნვამ შესაძლოა 50 მილიარდ დოლარს მიაღწიოს.

Match-ის კვლევა: ამერიკელი მარტოხელების თითქმის ნახევარი პაემნებში ხელოვნური ინტელექტის გამოყენებას უარყოფითად აფასებს
Match Group-ის კვლევის თანახმად, ამერიკელი მარტოხელების 47% უარყოფითად აფასებს ხელოვნური ინტელექტის გამოყენებას პაემნებში, თუმცა დამხმარე ფუნქციებს მიესალმება.

OpenAI-მ IPO-ს მოლოდინში გავლენიანი ფიგურები დაიქირავა: ნოამ შაზირი და დინ ბოლი გუნდს უერთდებიან
OpenAI-მ IPO-სთვის მზადების ფარგლებში გუნდში Google-ის ლეგენდა ნოამ შაზირი და თეთრი სახლის ყოფილი თანამშრომელი დინ ბოლი მიიწვია, რათა გააძლიეროს ტექნოლოგიური და პოლიტიკური პოზიციები.