User-agent – це параметр, що вказує для якого пошукового робота прописані нижче інструкції щодо індексації сайту в файлі robots.txt.
Пошукові роботи коли потряпляють на сайт, спершу шукають файл robots.txt, щоб зрозуміти, якими правилами та інструкціями їм керуватись при скануванні сайту. Якщо даний файл не існує, то сканування відбувається на розсуд робота.
Якщо ми хочемо задати правила індексації для всіх роботів, то за правилами достатньо прописати User-Agent: *.
Але зауважимо! Деякі спеціалісти стверджують, що пошукові роботи Yandex та Google, важають наступне. Якщо робот Yandex чи Google явно не вкузані в User-Agent, то дані правила їх не стосуються.
Тому варто в файлі robots.txt вказувати правила, як для всих ботів, так і окремо для Yandex та Google.
Більш детальніше про налаштування файлу robots.txt можете ознайомитись в нашій публікації.
1. Роботи Google
- Googlebot.
Це основний робот Google, що індексує головний текстовий контент сторінок і забезпечує формування органічної видачі.
- GoogleBot (Google Smartphone).
Головний пошуковий бот Google для смартфонів та планшетів.
- Googlebot-News.
Робот, що індексує новини та публікації на сайті.
- Googlebot-Video.
Робот для індексування відео. Включає в пошукову видачу відеофайли.
- Googlebot-Image.
Індексує та опрацьовує зображення. На освнові його формується пошукова видача за картинками.
- AdsBot-Google.
Перевіряє якість сторінок для Google Ads: швидкість завантаження, релевантність контенту, зручність навігації тощо.
- AdsBot-Google-Mobile-Apps.
Оцінює якість мобільних ljlfnrsd за тим же принципом, що і попередній бот.
- Mediapartners-Google.
Робот для контекстної реклами, що включає сайт в індекс та оцінює його для подальшого розміщення рекламних блоків.
- Mediapartners-Google (Google Mobile AdSense).
Бот аналогічний попередньому, але відповідає за розміщення релевантної реклами для мобільних пристроїв.
2. Роботи Яндекс
- YandexBot.
Основний робот Яндекса для індексації сайтів. Він працює з органічною видачею пошукача.
- YandexDirect.
Відповідає за контекстну рекламу. Відвідує сайти та оцінює їх на основі того, де розміщується контекстна реклама.
- YandexDirectDyn.
Виконує схожі функції, як і попередній бот, але з тим лише відмінністю, що оцінює динамічні оголошення.
- YandexMedia.
Індексує медіа файли. Сканує, завантажує та оцінює відео, аудіо.
- YandexImages.
Індексує та опрацьовує зображення. На освнові його формується пошукова видача за картинками.
- YandexNews.
Індексує сайт на наявність та оновлення новин. Відповідає за розділ Яндекс "Новини".
- YandexBlogs.
Займається постами, коментарями, відповідями та іншим контентом у блогах.
- YandexMetrika.
Це робот для Яндекс Метрики, що аналізує трафік сайтів та їх поведінкові чинники.
- YandexPagechecker.
Відповідає за розпізнавання мікророзмітки на сайті та її індексацію. Дані ці дані можуть використовуватись для пошукової видачі.
- YandexCalendar.
Індексує все, що пов'язане з Яндекс Календарем.
- YandexMarket.
Робот сервісу Яндекс.Маркет, що додає в індекс товари, описи до них, ціни та іншу інформацію, корисну для Маркета. Використовується для сканування інтернет-магазинів.
3. Інші роботи
- Applebot
Робот Apple, який збирає інформацію по сайту.
- AppleNewsBot
Робот Apple, який сканує сайт на новини та публікації
- FacebookBot
Робот Facebook, який збирає інформацію для таргету.
- facebookexternalhit
Робот Facebook, що опрацьомує інформацію для мікророзмітки Open Graph.
Відповідає за відображення сніпетів (preview) для посилань на сайт.
- Bingbot
Робот для Microsoft Bing
- Twitterbot
Основний робот для Twitter
- LinkedInBot
Основний робот для LinkedIn
- MSNbot
Основний робот пошукової системи Microsoft Network Search.
- MSNBot-Media
Робот Microsoft Network Search, який сканує зображення
- MSNBot-NewsBlogs
Робот Microsoft Network Search, який сканує новини та публікації
- MSNBot-Products
Робот Microsoft Network Search, який сканує сайт на наявність товарів
- Slurp
Робот для пошукової системи Yahoo!
4. Захист сайту від ботів
Інснуть сервіси, які дозволяють вашим конкурентам сканувати ваш сайт та контект (SemrushBot, SMTBot, MJ12bot, AhrefsBot, DotBot, Exabot, BomboraBot, SeznamBot).
Для захисту сайту від сканування можна помістити в кінці файлу robots.txt наступний код:
User-agent: Baiduspider Disallow: / User-agent: sogou spider Disallow: / User-agent: YodaoBot Disallow: / User-Agent: SputnikBot Disallow: / User-agent: NaverBot Disallow: / User-agent: Yeti Disallow: / User-agent: oBot Disallow: / User-agent: AddThis Disallow: / User-agent: wotbox Disallow: / User-agent: Embedly Disallow: / User-agent: 200PleaseBot Disallow: / User-agent: PaperLiBot Disallow: / User-agent: Genieo Disallow: / User-agent: ShowyouBot Disallow: / User-agent: TweetmemeBot Disallow: / User-agent: SemrushBot Disallow: / User-agent: SemrushBot-SA Disallow: / User-agent: AhrefsBot Disallow: / User-agent: Exabot Disallow: / User-agent: SurveyBot Disallow: / User-agent: sistrix Disallow: /User-agent: MJ12bot Disallow: /User-agent: BDCbot Disallow: / User-agent: BDCbot/1.0 Disallow: / User-agent: rogerbot Disallow: / User-agent: spbot Disallow: / User-agent: linkdexbot Disallow: / User-agent: 360Spider Disallow: / User-agent: 360Spider-Image Disallow: / User-agent: 360Spider-Video Disallow: / User-agent: CCBot Disallow: / User-agent: HaoSouSpider Disallow: / User-agent: dotbot Disallow: / User-agent: grapeshot Disallow: / User-agent: proximic Disallow: / User-agent: LinkpadBot Disallow: / User-agent: Sunrise Disallow: / User-agent: Butterfly Disallow: / User-agent: Linguee Bot Disallow: / User-agent: TwengaBot-2.0 Disallow: / User-agent: TurnitinBot Disallow: / User-agent: BLEXBot Disallow: / User-agent: 008 Disallow: / User-agent: AMZNKAssocBot/4.0 Disallow: / User-agent: NerdyBot Disallow: / User-agent: trovitBot Disallow: / User-agent: ShopWiki Disallow: / User-agent: 007ac9 Disallow: / User-agent: SiteExplorer Disallow: / User-agent: XoviBot Disallow: / User-agent: SMTBot Disallow: / User-agent: meanpathbot Disallow: / User-agent: MixrankBot Disallow: / User-agent: EasouSpider Disallow: / User-agent: Riddler Disallow: / User-agent: SeznamBot Disallow: / User-agent: Swiftbot Disallow: / User-agent: Qwantify Disallow: / User-agent: psbot Disallow: / User-agent: CrazyWebCrawler-Spider Disallow: / User-agent: HyperCrawl Disallow: / User-agent: daumoa Disallow: / User-agent: coccoc Disallow: / User-agent: netseer Disallow: / User-agent: BacklinkCrawler Disallow: / User-agent: Alexabot Disallow: / User-agent: SurdotlyBot Disallow: / User-agent: MegaIndex.ru/2.0 Disallow: / User-agent: MegaIndex.ru Disallow: / User-agent: yacybot Disallow: / User-agent: QuerySeekerSpider Disallow: / User-agent: WBSearchBot Disallow: / User-agent: DeuSu Disallow: / User-agent: TDJBOT Disallow: / User-agent: Findxbot/1.0 Disallow: / User-agent: Findxbot Disallow: / User-agent: Y! J-ASR Disallow: / User-agent: InfoWeb Disallow: / User-agent: Nutch Bots Disallow: / User-agent: Python-urllib Disallow: / User-agent: Ezooms Disallow: / User-agent: UnwindFetchor Disallow: / User-agent: Flipboard Disallow: / User-agent: voltron Disallow: / User-agent: IstellaBot Disallow: / User-agent: silk Disallow: / User-agent: Wget Disallow: / User-agent: UptimeRobot Disallow: / User-agent: UptimeRobot/2.0 Disallow: / User-agent: ScreenerBot Disallow: / User-agent: SearchmetricsBot Disallow: / User-agent: WeSEE Disallow: / User-agent: linkdexbot/2.0 Disallow: / User-agent: linkdexbot/2.1 Disallow: / User-agent: linkdexbot/2.2 Disallow: / User-agent: Uptimebot Disallow: / User-agent: Uptimebot/1.0 Disallow: / User-agent: Lipperhey Disallow: / User-agent: ltx71 Disallow: / User-agent: Python-urllib/2.7 Disallow: / User-agent: Sogou web spider/4.0 Disallow: / User-agent: Baiduspider/2.0 Disallow: / User-agent: PrivacyAwareBot/1.1 Disallow: / User-agent: yoozBot-2.2 Disallow: / User-agent: wget Disallow: / User-agent: tweetmeme Disallow: / User-agent: DoCoMo/2.0 Disallow: / User-agent: ichiro/4.0 Disallow: / User-agent: ichiro/3.0 Disallow: / User-agent: TwengaBot-Discover Disallow: / User-agent: TwengaBot/2.0 Disallow: / User-agent: TwengaBot Disallow: / User-agent: bendercrawler Disallow: / User-agent: baidu Disallow: / User-agent: bsalsa Disallow: / User-agent: phpservermon/3.1.1 Disallow: / User-agent: Gluten Free Crawler/1.0 Disallow: / User-agent: Gluten Free Crawler Disallow: / User-agent: Sogou Pic Spider/3.0 Disallow: / User-agent: Sogou head spider/3.0 Disallow: / User-agent: Sogou Orion spider/3.0 Disallow: / User-agent: Sogou-Test-Spider/4.0 Disallow: / User-agent: Sogou Pic Agent Disallow: / User-agent: Baiduspider+ Disallow: / User-agent: Baiduspider-video Disallow: / User-agent: Baiduspider-image Disallow: / User-agent: YoudaoBot/1.0 Disallow: / User-agent: ChangeDetection Disallow: / User-agent: SurdotlyBot Disallow: / User-agent: libwww-perl Disallow: / User-agent: MojeekBot Disallow: / User-agent: Sogou web spider Disallow: /

