Google-ის ახალმა Gemini Pro მოდელმა ბენჩმარკებში კვლავ რეკორდული შედეგები აჩვენა
Google-მა Gemini Pro-ს უახლესი, 3.1 ვერსია წარადგინა, რომელიც დამოუკიდებელ ტესტებში წინამორბედზე ბევრად უკეთეს შედეგებს აჩვენებს და AI აგენტების რეიტინგში პირველ ადგილს იკავებს.

ხუთშაბათს კომპანია Google-მა თავისი მძლავრი დიდი ენობრივი მოდელის (LLM), Gemini Pro-ს უახლესი ვერსია წარადგინა. მოდელი 3.1 ამჟამად სატესტო (preview) რეჟიმშია ხელმისაწვდომი, თუმცა კომპანიის განცხადებით, მისი სრული ვერსია მალე გამოვა. Google-ის ეს ახალი მოდელი, შესაძლოა, დღემდე შექმნილ ერთ-ერთ ყველაზე მძლავრ LLM-ად იქცეს.
დამკვირვებლების აღნიშვნით, Gemini 3.1 Pro მნიშვნელოვანი წინგადადგმული ნაბიჯია მის წინამორბედ Gemini 3-თან შედარებით. ეს უკანასკნელი ნოემბერში გამოვიდა და უკვე ითვლებოდა მაღალი შესაძლებლობების მქონე ხელოვნური ინტელექტის ინსტრუმენტად. ხუთშაბათს Google-მა ასევე გააზიარა დამოუკიდებელი ბენჩმარკების სტატისტიკა — მაგალითად, ერთ-ერთი, სახელწოდებით „Humanity’s Last Exam“, აჩვენებს, რომ ახალი ვერსია წინა მოდელზე მნიშვნელოვნად უკეთეს შედეგებს აღწევს.
Gemini 3.1 Pro-ს შესაძლებლობები დადებითად შეაფასა AI სტარტაპ Mercor-ის აღმასრულებელმა დირექტორმა, ბრენდან ფუდიმ (Brendan Foody). Mercor-ის ბენჩმარკინგის სისტემა, APEX, სპეციალურად იმის შესაფასებლად არის შექმნილი, თუ რამდენად კარგად ასრულებენ ხელოვნური ინტელექტის მოდელები რეალურ პროფესიულ დავალებებს.
„Gemini 3.1 Pro ახლა APEX-Agents-ის ლიდერბორდის სათავეშია“, — აღნიშნა ფუდიმ სოციალურ ქსელში გამოქვეყნებულ პოსტში. მან ასევე დასძინა, რომ მოდელის შთამბეჭდავი შედეგები ცხადყოფს, თუ „რამდენად სწრაფად უმჯობესდებიან AI აგენტები რეალური ინტელექტუალური სამუშაოს შესრულებისას“.
ეს სიახლე AI მოდელებს შორის მზარდი კონკურენციის ფონზე გავრცელდა. ტექნოლოგიური კომპანიები აგრძელებენ სულ უფრო მძლავრი მოდელების გამოშვებას, რომლებიც გათვლილია „აგენტურ“ (agentic) მუშაობასა და მრავალსაფეხურიან ლოგიკურ მსჯელობაზე. ბოლო პერიოდში ახალი მოდელები სხვა მსხვილმა მოთამაშეებმაც წარადგინეს, მათ შორის OpenAI-მ და Anthropic-მა.
მსგავსი სტატიები

Startup Battlefield 200-ში განაცხადების მიღება 3 დღეში სრულდება
Startup Battlefield 200-ში რეგისტრაცია 8 ივნისს სრულდება. ადრეული ეტაპის სტარტაპებს აქვთ შანსი მოიპოვონ 100,000 დოლარი და წარდგნენ გლობალური ინვესტორების წინაშე.

ტოკენების გადასახადის დრო დადგა: როგორ ცდილობს ინდუსტრია ხელოვნური ინტელექტის უკონტროლო ხარჯების მართვას
ხელოვნური ინტელექტის დანერგვის ტალღამ კომპანიები ფინანსური კრიზისის წინაშე დააყენა. გაიგეთ, როგორ ცდილობენ ტექნოლოგიური გიგანტები ტოკენების მზარდი ხარჯების კონტროლს.

ყველაზე საინტერესო თანამედროვე სტარტაპები მომხმარებლების სმარტფონებიდან მოწყვეტას ცდილობენ
ხელოვნური ინტელექტის ბუმის ფონზე, ახალი სტარტაპები ადამიანების გაერთიანებასა და ციფრული სამყაროდან რეალობაში დაბრუნებაზე ფოკუსირდებიან.