Skip to main content
ხელოვნური ინტელექტი10.3.20263 ნახვა

Google-ის ახალმა Gemini Pro მოდელმა ბენჩმარკებში კვლავ რეკორდული შედეგები აჩვენა

Google-მა Gemini Pro-ს უახლესი, 3.1 ვერსია წარადგინა, რომელიც დამოუკიდებელ ტესტებში წინამორბედზე ბევრად უკეთეს შედეგებს აჩვენებს და AI აგენტების რეიტინგში პირველ ადგილს იკავებს.

Google-ის ახალმა Gemini Pro მოდელმა ბენჩმარკებში კვლავ რეკორდული შედეგები აჩვენა

ხუთშაბათს კომპანია Google-მა თავისი მძლავრი დიდი ენობრივი მოდელის (LLM), Gemini Pro-ს უახლესი ვერსია წარადგინა. მოდელი 3.1 ამჟამად სატესტო (preview) რეჟიმშია ხელმისაწვდომი, თუმცა კომპანიის განცხადებით, მისი სრული ვერსია მალე გამოვა. Google-ის ეს ახალი მოდელი, შესაძლოა, დღემდე შექმნილ ერთ-ერთ ყველაზე მძლავრ LLM-ად იქცეს.

დამკვირვებლების აღნიშვნით, Gemini 3.1 Pro მნიშვნელოვანი წინგადადგმული ნაბიჯია მის წინამორბედ Gemini 3-თან შედარებით. ეს უკანასკნელი ნოემბერში გამოვიდა და უკვე ითვლებოდა მაღალი შესაძლებლობების მქონე ხელოვნური ინტელექტის ინსტრუმენტად. ხუთშაბათს Google-მა ასევე გააზიარა დამოუკიდებელი ბენჩმარკების სტატისტიკა — მაგალითად, ერთ-ერთი, სახელწოდებით „Humanity’s Last Exam“, აჩვენებს, რომ ახალი ვერსია წინა მოდელზე მნიშვნელოვნად უკეთეს შედეგებს აღწევს.

Gemini 3.1 Pro-ს შესაძლებლობები დადებითად შეაფასა AI სტარტაპ Mercor-ის აღმასრულებელმა დირექტორმა, ბრენდან ფუდიმ (Brendan Foody). Mercor-ის ბენჩმარკინგის სისტემა, APEX, სპეციალურად იმის შესაფასებლად არის შექმნილი, თუ რამდენად კარგად ასრულებენ ხელოვნური ინტელექტის მოდელები რეალურ პროფესიულ დავალებებს.

„Gemini 3.1 Pro ახლა APEX-Agents-ის ლიდერბორდის სათავეშია“, — აღნიშნა ფუდიმ სოციალურ ქსელში გამოქვეყნებულ პოსტში. მან ასევე დასძინა, რომ მოდელის შთამბეჭდავი შედეგები ცხადყოფს, თუ „რამდენად სწრაფად უმჯობესდებიან AI აგენტები რეალური ინტელექტუალური სამუშაოს შესრულებისას“.

ეს სიახლე AI მოდელებს შორის მზარდი კონკურენციის ფონზე გავრცელდა. ტექნოლოგიური კომპანიები აგრძელებენ სულ უფრო მძლავრი მოდელების გამოშვებას, რომლებიც გათვლილია „აგენტურ“ (agentic) მუშაობასა და მრავალსაფეხურიან ლოგიკურ მსჯელობაზე. ბოლო პერიოდში ახალი მოდელები სხვა მსხვილმა მოთამაშეებმაც წარადგინეს, მათ შორის OpenAI-მ და Anthropic-მა.

წყარო: TechCrunch AI
გაზიარება:

მსგავსი სტატიები

Anthropic-მა აშშ-ის თავდაცვის დეპარტამენტს სასამართლოში უჩივლა: დავა „მიწოდების ჯაჭვის რისკის“ სტატუსის გამო
ხელოვნური ინტელექტი

Anthropic-მა აშშ-ის თავდაცვის დეპარტამენტს სასამართლოში უჩივლა: დავა „მიწოდების ჯაჭვის რისკის“ სტატუსის გამო

Anthropic-მა აშშ-ის თავდაცვის დეპარტამენტს სასამართლოში უჩივლა მას შემდეგ, რაც უწყებამ კომპანია „მიწოდების ჯაჭვის რისკად“ გამოაცხადა. დავა ხელოვნური ინტელექტის უსაფრთხოებასა და სამხედრო მიზნებისთვის გამოყენებას ეხება.

9.3.2026
OpenAI-მ ხელოვნური ინტელექტის აგენტების უსაფრთხოების გასაძლიერებლად Promptfoo შეიძინა
ხელოვნური ინტელექტი

OpenAI-მ ხელოვნური ინტელექტის აგენტების უსაფრთხოების გასაძლიერებლად Promptfoo შეიძინა

OpenAI-მ AI უსაფრთხოების სტარტაპი Promptfoo შეიძინა. ტექნოლოგია OpenAI Frontier პლატფორმაში ინტეგრირდება, რათა უზრუნველყოს AI აგენტების დაცვა და უსაფრთხოების ავტომატიზებული ტესტირება.

9.3.2026
Anthropic-მა კოდის რევიზიის ახალი ხელსაწყო წარადგინა AI-ით გენერირებული კოდის ნაკადის შესამოწმებლად
ხელოვნური ინტელექტი

Anthropic-მა კოდის რევიზიის ახალი ხელსაწყო წარადგინა AI-ით გენერირებული კოდის ნაკადის შესამოწმებლად

Anthropic-მა გამოუშვა Code Review — ხელოვნურ ინტელექტზე დაფუძნებული ინსტრუმენტი, რომელიც Claude Code-ის მიერ გენერირებულ კოდში ლოგიკურ შეცდომებს პოულობს და რევიზიის პროცესს აჩქარებს.

9.3.2026