Как закрыть сайт от индексации в поисковых системах через файл robots.txt

Каждый SEO-специалист обязан знать основы составления правил для файла robots.txt. Иногда требуется полностью закрыть сайт от индексации (например, тестовую копию или сайт, который находится в разработке), а также постоянно требуется следить за актуальностью файла и закрывать от индексации мусорные и технические страницы.

Начнём с основ, спецсимволы для файла robots.txt:

* - любое кол-во любых символов
$ - отменяет * и фиксирует строку

Важно отметить: если в конце правила нет знака $, то ПС считают, что там стоит *

Как полностью закрыть сайт от индексации?

Это можно сделать при помощи создания в корне сайта текстового файла robots.txt. В этом документе требуется прописать следующий код:

User-agent: *
Disallow: /

Если требуется закрыть сайт от не от всех поисковых роботов, а от каких-то конкретных, то меняем * в User-agent на нужного поискового робота.

Имена основных роботов:

Yandex основной индексирующий робот Яндекса;
YandexImages индексирует изображения;
YandexMetrika робот Я.Метрики;
YandexMobileBot анализирует верстку страницы для мобильного поиска;
Googlebot основной индексирующий робот Google;
Googlebot-Image отвечает за индексацию изображений;
Googlebot-Video индексирует видео;
Slurp робот Yahoo!;
MSNBot отвечает за поиск в системе Bing, разработанной корпорацией Microsoft;
И пр.

Закрытие отдельной папки от индексации поисковыми роботами

Если требуется скрыть от поисковых систем отдельную папку Например, https://site.ru/blog/, то нужно указать:

User-agent: *
Disallow: /blog/

Если же какие-то файлы, содержащиеся в закрытой папке, требуется оставить открытыми для индексации, то можно одновременно применить правила Allow и Disallow:

User-agent: *
Disallow: /blog/
Аllow: /blog/file.php

Как закрыть от индексации отдельную страницу?

Предположим, что нам нужно закрыть страницу https://site.ru/blog/ от индексации, но при этом вложенные страницы (т.е. страницы вида https://site.ru/blog/story1/ и https://site.ru/blog/topic1/story/ и пр.) должны быть доступны для индексации, для этого добавляем в файл:

User-agent: *
Disallow: /blog/$

Закрытие отдельного файла в поисковых системах

Чтобы временно закрыть какой-то файл от индексации в ПС, необходимо в документе robots.txt сделать следующую запись:

User-agent: *
Disallow: /blog/file.php

Закрытие от индексации изображений

При необходимости можно скрыть от поисковых систем не только документы, но и изображения в популярных форматах .jpg, .png и .gif. Для этого в файле robots.txt прописываем дополнительные данные:

User-Agent: *
Disallow: *.jpg
Disallow: *.png
Disallow: *.gif

Хотя, мы наоборот советуем открывать изображения для индексации, если по ним вас могут найти в Яндекс или Google картинках и перейти на сайт, для этого используем директиву «Аllow».

User-Agent: *
Allow: *.jpg
Allow: *.png
Allow: *.gif

Закрытие от поисковых систем поддомена

Все поддомены, находящиеся на сайте, имеют собственные файлы robots.txt. Как правило, такие файлы располагаются в корневой папке. Если такого файла нет, то его нужно создать. Если же такой файл есть, то нужно скорректировать его, указав следующий код:

User-Agent: *
Disallow: /

Дополнительные директивы в файле robots.txt

Поисковая система Яндекс поддерживает целый ряд дополнительных директив, которые тоже можно использовать во время внесения изменений в файл robots.txt:

«Crawl-delay:». Данная директива задает минимальный период времени в секундах. Это время обозначает отрезок между окончанием загрузки одной и началом загрузки следующей страницы для поисковых роботов.

Например,
Crawl-delay: 1

«Clean-param:». Используя эту директиву, можно указывать GET-параметры, не влияющие на отображение контента сайта. Это могут быть UTM-метки или ref-ссылки.

Например,
Clean-param: utm /dir/blog.php

«Sitemap:». С помощью этой директивы, можно указывать путь к XML-карте сайта.

Например,
Sitemap: https://site.ru/sitemap.xml

Использование мета-тега name="robots" для закрытия сайта

Существует еще один эффективный способ закрыть сайт или заданную страницу от индексации. Речь идет о применении мета-тега robots, для закрытия от индексации внутри зоны документа нужно прописать следующий код:

Кроме того, при помощи данного мета-тега можно обращаться напрямую и к одному из роботов, используя вместо name="robots" имя робота, а именно:

Для Google:: <meta name="googlebot" content="noindex, nofollow"/>
Для Яндекса:: <meta name="yandex" content="none"/>

Как закрыть сайт от индексации на WordPress?

Все описанные ранее правила подходят для всех cms сайта, в некоторых можно сделать это через админку. Мы рекомендуем работать непосредственно с файлом robots.txt.

Проверка корректности составления файла robots.txt

Рекомендуем всегда проверять корректность составленного файла robots.txt через Яндекс Вебмастер - https://webmaster.yandex.ru/tools/robotstxt/

Это позволит минимизировать ошибки и не допустить проблем с индексированием сайта.