Термин: Robots.txt

Robots.txt — это текстовый файл в кодировке UTF-8, который содержит рекомендации поисковым роботам, какие страницы / документы индексировать, а какие нет.

Robots.txt размещается в корневой папке сайта и доступен по адресу вида https://somesite.ru/robots.txt

Этот стандарт утвержден Консорциумом Всемирной паутины W3C в 1994 году. Использование Robots.txt является добровольным как для владельцев сайтов, так и для поисковиков.

Назначение файла Robots.txt

Основная задача — управление поведением поисковых машин на сайте.

Приходя на сайт, робот сразу загружает содержимое Robots.txt. Если файл отсутствует, робот будет индексировать все документы из корневой и вложенных папок (если они не закрыты от индексации другими методами). В результате могут возникнуть следующие проблемы:

в индекс попадают лишние страницы и конфиденциальные документы (например, профили пользователей), которые не должны участвовать в поиске;
до основного важного контента робот может не добраться, так его ресурс и время на сайте ограничены.

Обрабатывая файл, роботы получают инструкции: индексировать, индексировать частично, запрещено к индексации.

Как правило, от индексации закрывают следующие документы и разделы:

административную панель,
системные файлы,
кэшированные данные,
страницы загрузки,
поиск, фильтры и сортировки,
корзины товаров,
личные кабинеты,
формы регистрации.

Что содержит Robots.txt

User-agent

Правило, указывающее, каким роботам оно предназначается. Если не указывать все роботы, а только прописать знак *, это будет значить, что правило действительно для любого известного робота, посетившего сайт.

Правило для робота «Яндекса»:

User-agent: Yandex

Правило для робота Google:

User-agent: Googlebot

Disallow

Правило, указывающее роботам, какую информацию индексировать запрещено. Это могут быть отдельные документы, разделы сайта или сайт целиком (в том случае, если он еще находится в разработке).

Правило, запрещающее индексировать весь сайт:

Disallow: /

Запрет обхода страниц, находящихся в определенном каталоге:

Disallow: /catalogue

Запрет обхода конкретной страницы (указать URL):

Disallow: /user-data.html

Allow

Данная директива разрешает индексировать содержимое сайта. Может потребоваться, когда нужно выборочно разрешить к индексации какой-либо контент. Обычно используется в комбинации с Disallow.

Правило, запрещающее индексировать все, кроме указанных страниц:

User-agent: Googlebot
Allow: /cgi-bin
Disallow: /

Host

Данная директива сообщает роботу о главном зеркале сайта. С марта 2018 года «Яндекс» полностью отказался от этой директивы, поэтому ее можно не прописывать в Robots. Однако важно, чтобы на всех не главных зеркалах сайта теперь стоял 301-й постраничный редирект.

Crawl-delay

Правило задает скорость обхода сайта. В секундах задается минимальный период времени между окончанием загрузки одной страницы и началом загрузки следующей. Необходимо при сильной нагрузке на сервер, когда робот не успевает обрабатывать страницы.

Установка тайм-аута в две секунды:

User-agent: Yandex
Crawl-delay: 2.0

Clean-param

Правило задается для динамических страниц GET-параметром или страниц с рекламными метками (идентификатор сессии, пользователей и т. д.), чтобы робот не индексировал дублирующуюся информацию.

Запрет индексации страниц с рекламной меткой — параметром ref:

User-agent: Yandex
Disallow:
Clean-param: ref /video/how_to_look.ru

Sitemap

Правило сообщает роботам, что все URL сайта, обязательные для индексации, находятся в файле Sitemap.xml. Прописывается путь к этой карте сайта. При каждом новом визите робот будет обращаться к этому файлу и вносить в индекс новую информацию, если она появилась на сайте.

User-agent: Yandex
Allow: /
sitemap: https://somesite.ru/sitemaps.xml

Как создать файл Robots.txt

Файл создается в текстовом редакторе с присвоением имени robots.txt. В этом файле прописываются инструкции с учетом озвученных выше правил. Далее файл загружается в корневую директорию сайта.

Для блога или новостного сайта можно скачать стандартный robots.txt с сайта движка или форума разработчиков, подкорректировав под свои особенности.

Как проверить Robots.txt

Проверка валидности файла Robots.txt проводится с помощью инструментов веб-мастеров Google и «Яндекса».

См. также

Бесплатная консультация специалиста PromoPult

Проанализируем сайт, страницу в соцсети или магазин на маркетплейсе и выявим точки роста.

Подберем эффективные инструменты, чтобы получить больше трафика и продаж из Яндекса, Google, ВКонтакте и Wildberries.

Бесплатная консультация специалиста PromoPult

Иннокентий, Руководитель библиотеки знаний

Настроим рекламу за вас

Бесплатная профессиональная настройка вашей рекламной кампании. Идеально для предпринимателей.

Иннокентий, Руководитель библиотеки знаний

Подробнее

Регистрация в Системе бесплатна, а заведение проекта займет у вас всего 5 минут. Начните продвижение уже сейчас. Зарегистрироваться