Каждый SEO-специалист обязан знать основы составления правил для файла robots.txt. Иногда требуется полностью закрыть сайт от индексации (например, тестовую копию или сайт, который находится в разработке), а также постоянно требуется следить за актуальностью файла и закрывать от индексации мусорные и технические страницы.
Начнём с основ, спецсимволы для файла robots.txt:
- * - любое кол-во любых символов
- $ - отменяет * и фиксирует строку
Важно отметить: если в конце правила нет знака $, то ПС считают, что там стоит *
Как полностью закрыть сайт от индексации?
Это можно сделать при помощи создания в корне сайта текстового файла robots.txt. В этом документе требуется прописать следующий код:
User-agent: *
Disallow: /
Если требуется закрыть сайт от не от всех поисковых роботов, а от каких-то конкретных, то меняем * в User-agent на нужного поискового робота.
Имена основных роботов:
- Yandex основной индексирующий робот Яндекса;
- YandexImages индексирует изображения;
- YandexMetrika робот Я.Метрики;
- YandexMobileBot анализирует верстку страницы для мобильного поиска;
- Googlebot основной индексирующий робот Google;
- Googlebot-Image отвечает за индексацию изображений;
- Googlebot-Video индексирует видео;
- Slurp робот Yahoo!;
- MSNBot отвечает за поиск в системе Bing, разработанной корпорацией Microsoft;
- И пр.
Закрытие отдельной папки от индексации поисковыми роботами
Если требуется скрыть от поисковых систем отдельную папку Например, https://site.ru/blog/, то нужно указать:
User-agent: *
Disallow: /blog/
Если же какие-то файлы, содержащиеся в закрытой папке, требуется оставить открытыми для индексации, то можно одновременно применить правила Allow и Disallow:
User-agent: *
Disallow: /blog/
Аllow: /blog/file.php
Как закрыть от индексации отдельную страницу?
Предположим, что нам нужно закрыть страницу https://site.ru/blog/ от индексации, но при этом вложенные страницы (т.е. страницы вида https://site.ru/blog/story1/ и https://site.ru/blog/topic1/story/ и пр.) должны быть доступны для индексации, для этого добавляем в файл:
User-agent: *
Disallow: /blog/$
Закрытие отдельного файла в поисковых системах
Чтобы временно закрыть какой-то файл от индексации в ПС, необходимо в документе robots.txt сделать следующую запись:
User-agent: *
Disallow: /blog/file.php
Закрытие от индексации изображений
При необходимости можно скрыть от поисковых систем не только документы, но и изображения в популярных форматах .jpg, .png и .gif. Для этого в файле robots.txt прописываем дополнительные данные:
User-Agent: *
Disallow: *.jpg
Disallow: *.png
Disallow: *.gif
Хотя, мы наоборот советуем открывать изображения для индексации, если по ним вас могут найти в Яндекс или Google картинках и перейти на сайт, для этого используем директиву «Аllow».
User-Agent: *
Allow: *.jpg
Allow: *.png
Allow: *.gif
Закрытие от поисковых систем поддомена
Все поддомены, находящиеся на сайте, имеют собственные файлы robots.txt. Как правило, такие файлы располагаются в корневой папке. Если такого файла нет, то его нужно создать. Если же такой файл есть, то нужно скорректировать его, указав следующий код:
User-Agent: *
Disallow: /
Дополнительные директивы в файле robots.txt
Поисковая система Яндекс поддерживает целый ряд дополнительных директив, которые тоже можно использовать во время внесения изменений в файл robots.txt:
- «Crawl-delay:». Данная директива задает минимальный период времени в секундах. Это время обозначает отрезок между окончанием загрузки одной и началом загрузки следующей страницы для поисковых роботов.
Например,
Crawl-delay: 1
- «Clean-param:». Используя эту директиву, можно указывать GET-параметры, не влияющие на отображение контента сайта. Это могут быть UTM-метки или ref-ссылки.
Например,
Clean-param: utm /dir/blog.php
- «Sitemap:». С помощью этой директивы, можно указывать путь к XML-карте сайта.
Например,
Sitemap: https://site.ru/sitemap.xml
Использование мета-тега name="robots" для закрытия сайта
Существует еще один эффективный способ закрыть сайт или заданную страницу от индексации. Речь идет о применении мета-тега robots, для закрытия от индексации внутри зоны
документа нужно прописать следующий код:<meta name="robots" content="noindex, nofollow"/>
Кроме того, при помощи данного мета-тега можно обращаться напрямую и к одному из роботов, используя вместо name="robots" имя робота, а именно:
- Для Google:
- <meta name="googlebot" content="noindex, nofollow"/>
- Для Яндекса:
- <meta name="yandex" content="none"/>
Как закрыть сайт от индексации на WordPress?
Все описанные ранее правила подходят для всех cms сайта, в некоторых можно сделать это через админку. Мы рекомендуем работать непосредственно с файлом robots.txt.
Проверка корректности составления файла robots.txt
Рекомендуем всегда проверять корректность составленного файла robots.txt через Яндекс Вебмастер - https://webmaster.yandex.ru/tools/robotstxt/
Это позволит минимизировать ошибки и не допустить проблем с индексированием сайта.