მომხმარებლის მონაცემების მნიშვნელობა Google-ის რეიტინგის სისტემებში: ლიზ რეიდის სააპელაციო დეკლარაციის ანალიზი

აშშ-ის იუსტიციის დეპარტამენტსა და Google-ს შორის მიმდინარე სასამართლო პროცესის (DOJ vs. Google) ფარგლებში გამოქვეყნებული ახალი მტკიცებულებები მნიშვნელოვან ინფორმაციას გვაწვდის გვერდის ხარისხის საკუთრების სიგნალების, სპამის შეფასების მეთოდებისა და იმის შესახებ, თუ რატომ წარმოადგენს მომხმარებლის ინტერაქციის მონაცემები თანამედროვე ძიების რეიტინგების საფუძველს.

Google-ის მიერ წარდგენილი სააპელაციო დეკლარაცია ეხება სასამართლოს იმ გადაწყვეტილებას, რომელიც კომპანიას ავალდებულებს, კონკურენტებს გაუზიაროს საკუთრების უფლებით დაცული ინფორმაცია. დოკუმენტში მოყვანილი დეტალები ნათლად აჩვენებს, თუ რამდენად დიდ მნიშვნელობას ანიჭებს ტექნოლოგიური გიგანტი მომხმარებელთა ქცევაზე დაკვირვებას.

ლიზ რეიდის სააპელაციო დეკლარაცია Google-ის წინააღმდეგ

დოკუმენტის ანალიზის შედეგად გამოიკვეთა რამდენიმე ძირითადი ასპექტი:

Google-ს დაევალა ინფორმაციის გაზიარება კონკურენტებისთვის, რათა თავიდან იქნას აცილებული უკანონო მონოპოლია. თუმცა, კომპანიას არ სურს მომხმარებლის მხრიდან მიღებული ვრცელი მონაცემების გაცემა.
გვერდის ხარისხისა და სიახლის (freshness) შესახებ მონაცემები Google-ის საკუთრებაა და მათ კომერციულ საიდუმლოდ მიიჩნევს.
ინდექსირებული გვერდები აღინიშნება სპეციალური ანოტაციებით, მათ შორის სიგნალებით, რომლებიც სპამ-გვერდების იდენტიფიცირებას ახდენს.
სპამერების მიერ ამ სიგნალების ხელში ჩაგდება მნიშვნელოვნად გაართულებდა სპამთან ბრძოლის პროცესს.
მომხმარებლის მონაცემები კრიტიკულია Glue სისტემისთვის, რომელიც ინახავს ინფორმაციას ყოველ საძიებო მოთხოვნაზე, ნანახ შედეგებსა და მომხმარებლის ინტერაქციაზე.
მონაცემები ასევე გამოიყენება RankEmbed BERT-ის — ძიების ერთ-ერთი მთავარი ღრმა სწავლების (deep learning) სისტემის — მოსამზადებლად.

Google-ის საკუთრებაში არსებული ხარისხისა და სიახლის სიგნალები

დოკუმენტებიდან ირკვევა, რომ სიახლის (freshness) სიგნალები Google-ის საკუთრების უფლებით დაცული საიდუმლოებების ცენტრშია. კომპანია დიდ რესურსს ხარჯავს იმის დასადგენად, თუ რამდენად აქტუალურია კონკრეტული ინფორმაცია დროის მოცემულ მომენტში.

ქვემოთ მოცემული სურათი კიდევ ერთხელ უსვამს ხაზს Google-ის საკუთრებაში არსებული სიახლის სიგნალების მნიშვნელობას:

დასკანირებული გვერდების ანოტაციები

Google-ის ინდექსში არსებული ყოველი გვერდი მარკირებულია სპეციალური ანოტაციებით (Proprietary Page Understanding Annotations), რაც სისტემას გვერდის შინაარსის უკეთ აღქმაში ეხმარება. ეს მოიცავს სიგნალებს სპამისა და დუბლირებული გვერდების გამოსავლენად. აღსანიშნავია, რომ ინდექსში არსებულ თითოეულ გვერდს აქვს თავისი „სპამის ქულა“ (spam score).

სპამის ქულები და რეიტინგის სისტემების უკუინჟინერია

Google კატეგორიულად ეწინააღმდეგება ამ ქულების კონკურენტებისთვის გაზიარებას. მიზეზი მარტივია: თუ სპამის ქულები საჯარო გახდება, ეს სპამერებს საშუალებას მისცემს მოახდინონ რეიტინგის სისტემების უკუინჟინერია (reverse engineering), რაც გაზრდის სპამის რაოდენობას და გაართულებს მასთან ბრძოლას.

ინდექსის ფორმირება ანოტირებული გვერდების საფუძველზე

გვერდები, რომლებსაც Google-მა ანოტაციები მიანიჭა, ორგანიზებულია იმის მიხედვით, თუ რამდენად ხშირად დასჭირდება სისტემას მათთან წვდომა და რამდენად კრიტიკულია შინაარსის სიახლე.

ინდექსში ხვდება გვერდების მხოლოდ მცირე ნაწილი

Google-ის არგუმენტით, კონკურენტებისთვის ინდექსირებული URL-ების სიის მიწოდება მათ საშუალებას მისცემს, თავი აარიდონ მთელი ინტერნეტის სკანირებას და ფოკუსირდნენ მხოლოდ იმ გვერდებზე, რომლებიც Google-მა უკვე შეარჩია. ამ ინდექსის შექმნა Google-სთვის დიდ დროსა და ფინანსურ ხარჯებთან არის დაკავშირებული.

მომხმარებლის მონაცემების როლი რეიტინგის სისტემებში

მომხმარებლის მონაცემების გამოყენება Google-ის მხრიდან ხშირად სათანადოდ არ ფასდება, თუმცა ეს შესაძლოა რეიტინგის ყველაზე მნიშვნელოვანი ფაქტორი იყოს.

GLUE და RankEmbed მოდელები

Google Glue არის მომხმარებელთა აქტივობის გიგანტური ცხრილი. ის აგროვებს ინფორმაციას საძიებო მოთხოვნის ტექსტზე, მომხმარებლის ენაზე, მდებარეობაზე, მოწყობილობის ტიპზე, იმაზე, თუ რა გამოჩნდა ძიების შედეგების გვერდზე (SERP), რაზე დააჭირა მომხმარებელმა კურსორი, რამდენ ხანს დარჩა გვერდზე და სხვა.

RankEmbed BERT კიდევ უფრო საინტერესო სისტემაა. ეს არის ღრმა სწავლების მოდელი, რომელიც გამოიყენება ტრადიციული რეიტინგის სისტემების მიერ დაბრუნებული შედეგების გადასამუშავებლად (reranking). RankEmbed BERT იწვრთნება რეალური მომხმარებლების დაწკაპუნებებისა (clicks) და მოთხოვნების (queries) მონაცემებზე.

სისტემა მუდმივად სწავლობს, რათა მომხმარებელს უფრო დამაკმაყოფილებელი შედეგები შესთავაზოს. Google აკვირდება შემდეგ ჯაჭვს: ძიება → დაწკაპუნება → SERP-ზე დაბრუნება (ან არდაბრუნება). თუ მომხმარებელი არ ბრუნდება ძიების შედეგებში, ეს ნიშნავს, რომ მან სასურველი ინფორმაცია იპოვა. ეს ქმედებები წვრთნის RankEmbed BERT-ს, რასაც ემატება ხარისხის შემფასებლების (quality raters) რეიტინგები.

აქედან გამომდინარე, ოპტიმიზაციისას მთავარი აქცენტი მომხმარებლის კმაყოფილებაზე უნდა გაკეთდეს.

ასევე არსებობს ვარაუდი, რომ Google იყენებს Chrome-ის მონაცემებსაც, რათა დაადგინოს, როგორ ურთიერთქმედებენ ადამიანები გვერდებთან (ავსებენ თუ არა ფორმებს, კითხულობენ თუ არა რეცეპტებს და ა.შ.). სასამართლო პროცესის შეჯამება მიანიშნებს, რომ Chrome-ის მონაცემები გამოიყენება რეიტინგის სისტემებში, თუმცა დეტალები მწირია.

მონაცემები და ხელოვნური ინტელექტი

Google-ის განცხადებით, თუ ვინმე ხელში ჩაიგდებდა Glue-სა და RankEmbed-ის მონაცემებს, მას შეეძლო მათი გამოყენება დიდი ენობრივი მოდელის (LLM) მოსამზადებლად. სწორედ ეს მონაცემებია Google-ის წარმატების გასაღები.

მომხმარებლის მონაცემების მნიშვნელობა Google-ის რეიტინგის სისტემებში: ლიზ რეიდის სააპელაციო დეკლარაციის ანალიზი

Google-ის საკუთრებაში არსებული ხარისხისა და სიახლის სიგნალები

დასკანირებული გვერდების ანოტაციები

სპამის ქულები და რეიტინგის სისტემების უკუინჟინერია

ინდექსის ფორმირება ანოტირებული გვერდების საფუძველზე

ინდექსში ხვდება გვერდების მხოლოდ მცირე ნაწილი

მომხმარებლის მონაცემების როლი რეიტინგის სისტემებში

GLUE და RankEmbed მოდელები

მონაცემები და ხელოვნური ინტელექტი

მსგავსი სტატიები

Bing-მა Webmaster Tools-ში ხელოვნური ინტელექტის ციტირების წილის მონიტორინგის ფუნქცია დაამატა

AI ოპერაციების 4-დონიანი სტრატეგია: როგორ მივიღოთ უკეთესი SEO შედეგები ხელოვნური ინტელექტის მეშვეობით

Ahrefs-ის მონაცემები: llms.txt ფაილების 97%-ს არცერთი მოთხოვნა არ მიუღია