წამყვანი საინფორმაციო გამოცემების უმრავლესობა AI ბოტებს ბლოკავს: BuzzStream-ის კვლევის შედეგები

BuzzStream-მა აშშ-სა და გაერთიანებული სამეფოს 100 უმსხვილესი საინფორმაციო საიტის robots.txt ფაილები შეისწავლა. კვლევამ აჩვენა, რომ გამოცემების 79% ბლოკავს ხელოვნური ინტელექტის საწვრთნელ ბოტებს, ხოლო 71% ასევე ზღუდავს ე.წ. retrieval (ინფორმაციის მომპოვებელ) ბოტებს, რაც პირდაპირ გავლენას ახდენს AI-ს მიერ წყაროების ციტირებაზე.

Google-Extended ყველაზე ნაკლებად დაბლოკილი საწვრთნელი ბოტია (46%), თუმცა აშშ-ის გამომცემლები მას თითქმის ორჯერ უფრო ხშირად ბლოკავენ, ვიდრე გაერთიანებული სამეფოს წარმომადგენლები. მნიშვნელოვანია აღინიშნოს, რომ robots.txt მხოლოდ დირექტივაა და არა აღსრულების გარანტირებული მექანიზმი; არსებობს დოკუმენტირებული შემთხვევები, როდესაც ბოტები ამ შეზღუდვებს გვერდს უვლიან.

საინფორმაციო საიტების უმრავლესობა robots.txt-ის მეშვეობით ბლოკავს AI საწვრთნელ ბოტებს, თუმცა ისინი ასევე ზღუდავენ იმ ბოტებსაც, რომლებიც განსაზღვრავენ, გამოჩნდება თუ არა საიტი ხელოვნური ინტელექტის მიერ გენერირებულ პასუხებში. საწვრთნელი ბოტები აგროვებენ კონტენტს AI მოდელების ასაშენებლად, ხოლო retrieval ბოტები ინფორმაციას რეალურ დროში მოიპოვებენ, როდესაც მომხმარებელი კითხვას სვამს. საიტები, რომლებიც ბლოკავენ retrieval ბოტებს, შესაძლოა არ გამოჩნდნენ AI ინსტრუმენტების მიერ მითითებულ წყაროებში, იმ შემთხვევაშიც კი, თუ ძირითადი მოდელი მათ კონტენტზე იყო გაწვრთნილი.

რას აჩვენებს მონაცემები

BuzzStream-მა შეისწავლა SimilarWeb-ის ტრაფიკის წილის მიხედვით შერჩეული 50-50 წამყვანი საინფორმაციო საიტი ორივე ბაზარზე. კვლევაში ბოტები სამ კატეგორიად დაიყო: საწვრთნელი (training), ინფორმაციის მომპოვებელი/ცოცხალი ძიების (retrieval/live search) და ინდექსირების (indexing) ბოტები.

საწვრთნელი ბოტების ბლოკირება

საწვრთნელ ბოტებს შორის ყველაზე ხშირად იბლოკება Common Crawl-ის CCBot (75%), მას მოჰყვება Anthropic-ai (72%), ClaudeBot (69%) და GPTBot (62%). Google-Extended, რომელიც Gemini-ს წვრთნისთვის გამოიყენება, ყველაზე ნაკლებად დაბლოკილია (ჯამურად 46%). აშშ-ის გამომცემლებმა ის 58%-იან შემთხვევაში დაბლოკეს, რაც თითქმის ორჯერ აღემატება გაერთიანებული სამეფოს მაჩვენებელს (29%).

ჰარი კლარკსონ-ბენეტმა, The Telegraph-ის SEO დირექტორმა, BuzzStream-თან საუბრისას აღნიშნა:

„გამომცემლები AI ბოტებს robots.txt-ის საშუალებით ბლოკავენ, რადგან მათ შორის ღირებულების გაცვლა თითქმის არ ხდება. LLM-ები (დიდი ენობრივი მოდელები) არ არის შექმნილი რეფერალური ტრაფიკის გამოსაგზავნად, გამომცემლებს კი გადასარჩენად ტრაფიკი კვლავ სჭირდებათ.“

ინფორმაციის მომპოვებელი (Retrieval) ბოტების ბლოკირება

კვლევამ აჩვენა, რომ საიტების 71% ბლოკავს მინიმუმ ერთ retrieval ან ცოცხალი ძიების ბოტს. Claude-Web დაბლოკილია საიტების 66%-ის მიერ, ხოლო OpenAI-ის OAI-SearchBot, რომელიც ChatGPT-ის ცოცხალ ძიებას უზრუნველყოფს — 49%-ის მიერ. ChatGPT-User დაბლოკილია 40%-ის მიერ. Perplexity-User, რომელიც მომხმარებლის მიერ ინიცირებულ მოთხოვნებს ამუშავებს, ყველაზე ნაკლებად დაბლოკილია (17%).

ინდექსირების ბლოკირება

PerplexityBot, რომელსაც Perplexity საძიებო ბაზისთვის გვერდების ინდექსირებისთვის იყენებს, საიტების 67%-მა დაბლოკა. კვლევაში მონაწილე საიტების მხოლოდ 14%-მა დაბლოკა ყველა შესწავლილი AI ბოტი, ხოლო 18%-ს არცერთი მათგანი არ შეუზღუდავს.

აღსრულების პრობლემა

კვლევაში ხაზგასმულია, რომ robots.txt არის მხოლოდ რეკომენდაცია და არა ბარიერი, ამიტომ ბოტებს შეუძლიათ მისი იგნორირება. Google-ის წარმომადგენელმა, გარი ილიესმა, დაადასტურა, რომ robots.txt ვერ აღკვეთს არასანქცირებულ წვდომას. ის უფრო ჰგავს ნიშანს „გთხოვთ, ნუ შემოხვალთ“, ვიდრე ჩაკეტილ კარს.

კლარკსონ-ბენეტმა BuzzStream-ის ანგარიშში იგივე საკითხი წამოსწია:

„robots.txt ფაილი არის დირექტივა. ეს ჰგავს აბრას, რომელიც ითხოვს ტერიტორიაზე არშესვლას, მაგრამ ვერ აჩერებს ურჩ ან ბოროტგანზრახულ რობოტს. ბევრი მათგანი აშკარად აიგნორირებს ამ მითითებებს.“

Cloudflare-მა დააფიქსირა, რომ Perplexity იყენებდა ფარულ crawling მეთოდებს robots.txt-ის გვერდის ავლით. კომპანია ცვლიდა IP მისამართებს, ASN-ებს და ნიღბავდა User Agent-ს, რათა ბრაუზერად გამოჩენილიყო. Cloudflare-მა Perplexity ვერიფიცირებული ბოტების სიიდან ამოიღო და ახლა მას აქტიურად ბლოკავს. Perplexity-მ უარყო ეს ბრალდებები და საპასუხო განცხადება გამოაქვეყნა.

გამომცემლებისთვის, რომლებსაც AI ბოტების დაბლოკვა სერიოზულად სურთ, შესაძლოა საჭირო გახდეს CDN დონის ბლოკირება ან ბოტების „თითის ანაბეჭდების“ (fingerprinting) იდენტიფიცირება.

რატომ არის ეს მნიშვნელოვანი

Retrieval-ბოტების ბლოკირების სტატისტიკა განსაკუთრებულ ყურადღებას იმსახურებს. გარდა იმისა, რომ გამომცემლები უარს ამბობენ AI-ს წვრთნაზე, ისინი ასევე უარს აცხადებენ ციტირებისა და აღმოჩენადობის იმ შრეზე, რომელსაც AI საძიებო ხელსაწყოები წყაროების გამოსაჩენად იყენებენ.

OpenAI თავის ბოტებს ფუნქციების მიხედვით ყოფს: GPTBot აგროვებს მონაცემებს წვრთნისთვის, ხოლო OAI-SearchBot უზრუნველყოფს ცოცხალ ძიებას ChatGPT-ში. ერთის დაბლოკვა არ ნიშნავს მეორის ავტომატურ შეზღუდვას. Perplexity-საც მსგავსი დაყოფა აქვს: PerplexityBot ინდექსირებისთვის და Perplexity-User ინფორმაციის მოპოვებისთვის.

ეს არჩევანი გავლენას ახდენს იმაზე, თუ საიდან შეუძლიათ AI ინსტრუმენტებს ციტატების აღება. თუ საიტი ბლოკავს retrieval ბოტებს, ის შესაძლოა არ გამოჩნდეს AI ასისტენტების პასუხებში, მაშინაც კი, თუ მოდელი უკვე ფლობს ამ საიტის კონტენტს წვრთნის შედეგად.

სამომავლო პერსპექტივები

ვინაიდან robots.txt მეთოდს აქვს თავისი ლიმიტები, საიტებმა, რომლებსაც AI ბოტების შეზღუდვა სურთ, შესაძლოა CDN დონის შეზღუდვები უფრო ეფექტურად მიიჩნიონ. Cloudflare-ის წლის შეჯამებამ აჩვენა, რომ GPTBot-ს, ClaudeBot-სა და CCBot-ს ყველაზე მეტი სრული აკრძალვის (disallow) დირექტივა ჰქონდათ წამყვან დომენებზე.

ანგარიშში ასევე აღნიშნულია, რომ გამომცემლების უმეტესობა Googlebot-ისა და Bingbot-ისთვის იყენებს ნაწილობრივ ბლოკირებას და არა სრულს. ეს ასახავს Google-ის ბოტის ორმაგ როლს საძიებო ინდექსირებასა და AI წვრთნაში. მათთვის, ვინც AI-ში ხილვადობას აკვირდება, retrieval ბოტების კატეგორია ყველაზე მნიშვნელოვანია. საწვრთნელი ბოტების ბლოკირება გავლენას ახდენს მომავალ მოდელებზე, ხოლო retrieval ბოტების შეზღუდვა განსაზღვრავს, გამოჩნდება თუ არა თქვენი კონტენტი AI პასუხებში ახლავე.

წამყვანი საინფორმაციო გამოცემების უმრავლესობა AI ბოტებს ბლოკავს: BuzzStream-ის კვლევის შედეგები

რას აჩვენებს მონაცემები

საწვრთნელი ბოტების ბლოკირება

ინფორმაციის მომპოვებელი (Retrieval) ბოტების ბლოკირება

ინდექსირების ბლოკირება

აღსრულების პრობლემა

რატომ არის ეს მნიშვნელოვანი

სამომავლო პერსპექტივები

მსგავსი სტატიები

Google Ads-ის Performance Max-ის განთავსების ანგარიშებში საძიებო პარტნიორების დომენები გამოჩნდა

Microsoft: „Summarize with AI“ ღილაკები ხელოვნური ინტელექტის რეკომენდაციების „მოსაწამლად“ გამოიყენება

რატომ ვერ აღიქვამს ხელოვნური ინტელექტი გრძელი ტექსტების შუა ნაწილს და როგორ გამოვასწოროთ ეს