Після того коли Ви випустили свій сайт в реліз (коли сайт знаходиться на хостингу та доступний всім в інтернеті), його сторінки та файли починають скануватись пошуковими роботами. Інколи цей процес займає від декількох днів до декулькох тижнів.
Про те "Як можна прискорити індексацію сайта?" - у нас є окрема публікація.
Сьогодні розглянемо ситуацію, коли по деяким причинам нам необхідно приховати сайт від пошукових роботів. Для цього і використовують заборону на індексацію сайту для роботів.
Найчастіше необхідність приховати сайт виникає в наступних ситуаціях:
- Тестування сайт на іншому домені чи піддомені.
Тестовий сайт необхідно закривати від індексації, щоб не було дублів. Інакще пошукові системи будуть думати, що у вас два однаковий сайти. І рейтинг основного сайту буде падати.
- Створення мобільної версії сайт
Якщо у вас є окремо мобільний сайт на окремому домені чи піддомені, то його теж необхідно закрити від індексації, щоб не було дублів. Або краще зв'язати основний сайт та його мобільну версію за допомогою тегів rel="canonical" та rel="alternate".
Не путайте з адаптивною версією сайта для мобільних.
- Оновлення дизайну чи контекнту сайту
- Необхідно приховати конкретні сторінки
Інколи буває, що треба призовати від пошукових роботів не весь сайт, а лише конкретні сторінки.
- Інші причини, коли Ви не хочете щоб ваш сайт був в результатах пошуку Google чи Яндекс.
Також слід зауважити, що Заборона скакування сайту може бути використане як тимчасове рішення. Після закінчення технічних робіт Ви зможете повернути сайт до попереднього стану. Такий крок допомагає зберегти позиції у пошуковій видачі.
Способи як можна закрити сайт від індексації
Заборонити індексацію сайту можна трьома способами.
- Файл Robots.txt
- Метатег Robots
- X-Robots-Tag в файлі .htaccess
Тепер пропоную розглянути кожен із них окремо.
1. Файл robots.txt
Файл robots.txt - це файл, в якому можна прописати інструкцію для роботів, щоб вони розуміли, що можна сканувати, а що ні.
Файл robots.txt повинен знаходитись в корневому каталозі вашого сайту, там де знаходиться файл index.hml чи index.php.
Якщо у вас немає даного файлу, його необхідно створити.
Основні параметри, які ми будемо використовувати:
1. User-agent
Вказує список роботів, для яких будenm виконуватись правила, описані нижче.
Наприклад, Googlebot, Yandex.
Якщо необхідно, щоб правило працювало для всіх ботів, можемо вказати User-agent: *
Переглянути список популярних роботів.
2. Disallow
Адреси, сторінки та каталоги, які закрити від сканування роботами.
3. Allow
Адреси, сторінки та каталоги, які відкриті для сканування роботами.
Закрити від індексації весь сайт
User-agent: * Disallow: /
Закрити від індексації сайт для тільки Yandex:
User-agent: Yandex Disallow: /
Закрити від індексації сайт для тільки Googole:
User-agent: Googlebot Disallow: /
Закрити від індексації сайт для всіх ботів, окрім Googole:
User-agent: * Disallow: / User-agent: Googlebot Allow: /
Закрити від індексації конкретну сторінку:
User-agent: * Disallow: /page.html
Закрити від індексації каталог та його вміст:
User-agent: * Disallow: /path$ Disallow: /path/
Закрити від індексації каталог, але дозволити сканувати його вміст:
User-agent: * Disallow: /path$ Disallow: /path/$
Закрити від індексації все, окрім вказаного каталогу:
User-agent: * Disallow: / Allow: /path/$
Закрити від індексації файли:
Заборонити індексацію файлів можна, вказавши їх розширення
User-agent: * Disallow: /*.doc$ Disallow: /*.docx$ Disallow: /*.xls$ Disallow: /*.xlsx$ Disallow: /*.pdf$
Закрити від індексації всі файли, окрім розширення pdf:
User-agent: * Disallow: *.*$ Allow: *.pdf$
Закрити від індексації зображення:
User-agent: * Disallow: /*.jpg$ Disallow: /*.jpeg$ Disallow: /*.gif$ Disallow: /*.png$ Disallow: /*.webp$
Закрити від індексації сайт, для ботів, які сканують зображення:
User-agent: YandexImages Disallow: / User-agent: Googlebot-Image Disallow: /
Закрити від індексації сторінки з GET-параметрами
Можна використовувати для сторінок з фільтрами.
Наприклад, https://laweb.com.ua/projects?filter_color=red
Заборонити всі GET-параметри:
User-agent: * Disallow: /*?*
Заборонити вказаний GET-параметр:
User-agent: * Disallow: /*?sort= Disallow: /*&sort=
Заборонити всі GET-параметри, окрім вказаного:
User-agent: * Disallow: /*?* Allow: /*?id= Allow: /*&id=
2. Метатег Robots
Заборонити скаванування сайту пошуковими роботами можна за допомогою метатега <meta name="robots" content="noindex">, який необхідно розмістити в заголовці сторінки <head>:
<!doctype html>
<html lang="en">
<head>
<meta name="robots" content="noindex">
</head>
<body>
...
</body>
</html>Важливо!
Метатег <meta name="robots" content="noindex"> необхідно розмішувати на кожній сторінці сайту, яку необхідно закрити від індексації.
Можливі значення метатега robots:
- noindex – заборона на індексацію контенту;
- nofollow – заборона на індексацію посилань;
- none – заборона на індексацію контенту та посилань.
Для заборони індексації всього контенту та посилань можна використовувати:
<meta name="robots" content="noindex, nofollow"/> або <meta name="robots" content="none"/>

