Robots.txt — это текстовый файл в кодировке UTF-8, который содержит рекомендации поисковым роботам, какие страницы / документы индексировать, а какие нет.
Robots.txt размещается в корневой папке сайта и доступен по адресу вида https://somesite.ru/robots.txt
Этот стандарт утвержден Консорциумом Всемирной паутины W3C в 1994 году. Использование Robots.txt является добровольным как для владельцев сайтов, так и для поисковиков.
Основная задача — управление поведением поисковых машин на сайте.
Приходя на сайт, робот сразу загружает содержимое Robots.txt. Если файл отсутствует, робот будет индексировать все документы из корневой и вложенных папок (если они не закрыты от индексации другими методами). В результате могут возникнуть следующие проблемы:
Обрабатывая файл, роботы получают инструкции: индексировать, индексировать частично, запрещено к индексации.
Как правило, от индексации закрывают следующие документы и разделы:
Правило, указывающее, каким роботам оно предназначается. Если не указывать все роботы, а только прописать знак *, это будет значить, что правило действительно для любого известного робота, посетившего сайт.
Правило для робота «Яндекса»:
User-agent: Yandex
Правило для робота Google:
User-agent: Googlebot
Правило, указывающее роботам, какую информацию индексировать запрещено. Это могут быть отдельные документы, разделы сайта или сайт целиком (в том случае, если он еще находится в разработке).
Правило, запрещающее индексировать весь сайт:
Disallow: /
Запрет обхода страниц, находящихся в определенном каталоге:
Disallow: /catalogue
Запрет обхода конкретной страницы (указать URL):
Disallow: /user-data.html
Данная директива разрешает индексировать содержимое сайта. Может потребоваться, когда нужно выборочно разрешить к индексации какой-либо контент. Обычно используется в комбинации с Disallow.
Правило, запрещающее индексировать все, кроме указанных страниц:
User-agent: Googlebot Allow: /cgi-bin Disallow: /
Данная директива сообщает роботу о главном зеркале сайта. С марта 2018 года «Яндекс» полностью отказался от этой директивы, поэтому ее можно не прописывать в Robots. Однако важно, чтобы на всех не главных зеркалах сайта теперь стоял 301-й постраничный редирект.
Правило задает скорость обхода сайта. В секундах задается минимальный период времени между окончанием загрузки одной страницы и началом загрузки следующей. Необходимо при сильной нагрузке на сервер, когда робот не успевает обрабатывать страницы.
Установка тайм-аута в две секунды:
User-agent: Yandex Crawl-delay: 2.0
Правило задается для динамических страниц GET-параметром или страниц с рекламными метками (идентификатор сессии, пользователей и т. д.), чтобы робот не индексировал дублирующуюся информацию.
Запрет индексации страниц с рекламной меткой — параметром ref:
User-agent: Yandex Disallow: Clean-param: ref /video/how_to_look.ru
Правило сообщает роботам, что все URL сайта, обязательные для индексации, находятся в файле Sitemap.xml. Прописывается путь к этой карте сайта. При каждом новом визите робот будет обращаться к этому файлу и вносить в индекс новую информацию, если она появилась на сайте.
User-agent: Yandex Allow: / sitemap: https://somesite.ru/sitemaps.xml
Файл создается в текстовом редакторе с присвоением имени robots.txt. В этом файле прописываются инструкции с учетом озвученных выше правил. Далее файл загружается в корневую директорию сайта.
Для блога или новостного сайта можно скачать стандартный robots.txt с сайта движка или форума разработчиков, подкорректировав под свои особенности.
Проверка валидности файла Robots.txt проводится с помощью инструментов веб-мастеров Google и «Яндекса».
Бесплатная профессиональная настройка вашей рекламной кампании. Идеально для предпринимателей.