OpenAI-მ API-სთვის ხმოვანი ინტელექტის ახალი ფუნქციები წარადგინა
OpenAI-მ API-სთვის ხმოვანი ინტელექტის ახალი მოდელები წარადგინა, რომლებიც რეალურ დროში თარგმნის, ტრანსკრიფციისა და რთული ლოგიკური ამოცანების შესრულების საშუალებას იძლევა.

OpenAI-მ ხუთშაბათს განაცხადა, რომ მის API-ს ხმოვანი ინტელექტის რამდენიმე ახალი ფუნქცია დაემატება. ეს სიახლეები დეველოპერებს საშუალებას მისცემს, შექმნან აპლიკაციები, რომლებსაც მომხმარებლებთან საუბარი, საუბრის ტრანსკრიფცია და თარგმნა შეეძლებათ.
კომპანიის ახალი მოდელი, GPT-Realtime-2, შექმნილია რეალისტური ვოკალური სიმულაციისთვის, რომელსაც მომხმარებლებთან დიალოგის წარმართვა შეუძლია. მისი წინამორბედისგან (GPT-Realtime-1.5) განსხვავებით, ეს ვერსია დაფუძნებულია GPT-5 კლასის ლოგიკურ აზროვნებაზე (reasoning), რაც OpenAI-ის განცხადებით, მომხმარებლის რთული მოთხოვნების უკეთ დამუშავებას უზრუნველყოფს.
ახალი ფუნქციების მიმოხილვა
OpenAI-მ ერთდროულად რამდენიმე მნიშვნელოვანი ინსტრუმენტი წარადგინა, რომლებიც ხმოვან ინტერფეისებთან მუშაობას ამარტივებს:
- GPT-Realtime-Translate: ეს ფუნქცია უზრუნველყოფს რეალურ დროში თარგმნის სერვისს, რომელიც საუბრის ტემპს მიჰყვება. სისტემას შეუძლია 70-ზე მეტი შესაყვანი ენის აღქმა და 13 გამომავალ ენაზე პასუხის გაცემა.
- GPT-Realtime-Whisper: ახალი ტრანსკრიფციის შესაძლებლობა, რომელიც მომხმარებლებს მეტყველების ტექსტად გარდაქმნის (speech-to-text) ფუნქციას სთავაზობს უშუალოდ ინტერაქციის პროცესში.
„წარდგენილი მოდელები რეალურ დროში აუდიოს მარტივი კითხვა-პასუხის რეჟიმიდან სრულფასოვან ხმოვან ინტერფეისებად აქცევს, რომლებსაც რეალური სამუშაოს შესრულება შეუძლიათ: მოსმენა, ლოგიკური მსჯელობა, თარგმნა, ტრანსკრიფცია და მოქმედება საუბრის მიმდინარეობისას“, — აცხადებენ კომპანიაში.
გამოყენების სფეროები და უსაფრთხოება
ეს განახლებები განსაკუთრებით მიმზიდველია იმ კომპანიებისთვის, რომლებსაც მომხმარებელთა მომსახურების შესაძლებლობების გაფართოება სურთ. თუმცა, OpenAI ასევე აღნიშნავს, რომ ახალი ფუნქციები სასარგებლო იქნება სხვადასხვა სფეროში, მათ შორის განათლებაში, მედიაში, ღონისძიებების მართვასა და კრეატორთა პლატფორმებზე.
მიუხედავად ტექნოლოგიის სარგებლიანობისა, არსებობს მისი ბოროტად გამოყენების რისკიც. კომპანიამ დანერგა დამცავი მექანიზმები (guardrails) სპამის, თაღლითობისა და სხვა სახის ონლაინ დარღვევების თავიდან ასაცილებლად. სისტემაში ჩაშენებულია სპეციალური ტრიგერები, რომელთა მეშვეობითაც საუბარი შეიძლება შეწყდეს, თუ გამოვლინდება მავნე კონტენტის შესახებ გაიდლაინების დარღვევა.
ხმოვანი მოდელები ხელმისაწვდომია OpenAI-ის Realtime API-ში. ფასწარმოების მოდელი განსხვავებულია: Translate და Whisper-ის საფასური წუთობრივად ითვლება, ხოლო GPT-Realtime-2-ის ღირებულება ტოკენების მოხმარებაზეა დამოკიდებული.
მსგავსი სტატიები

სტოკჰოლმის ახალი AI ვარსკვლავი: Voi-ს დამფუძნებლებმა Pit-ისთვის $16 მილიონი მოიზიდეს
სტოკჰოლმური სტარტაპი Pit, რომელიც Voi-ს დამფუძნებლებმა შექმნეს, კორპორატიული პროცესების ავტომატიზაციისთვის $16 მილიონს მოიზიდა a16z-ისგან.

რატომ ვერ გიკავშირდებათ ექიმი: როგორ ცდილობს სტარტაპი Basata სამედიცინო ბიუროკრატიის დაძლევას
სტარტაპი Basata ხელოვნური ინტელექტის გამოყენებით სამედიცინო რეფერალების დამუშავებასა და ვიზიტების დანიშვნას ავტომატურს ხდის, რაც პაციენტებს ექიმთან მოხვედრას უადვილებს.

Bumble „სვაიპის“ ფუნქციას აუქმებს — კომპანიის აღმასრულებელი დირექტორი რევოლუციურ ცვლილებებს აანონსებს
Bumble-ის აღმასრულებელი დირექტორი უიტნი ვულფ ჰერდი აცხადებს, რომ აპლიკაცია უარს ამბობს „სვაიპის“ ფუნქციაზე და ხელოვნურ ინტელექტზე დაფუძნებულ რევოლუციურ ცვლილებებს გეგმავს.