Баланс
0.00
Расход в день
0.00
Расход в месяц
0.00
Бонусные баллы
получить
Пополнить

Списания и начисления
Расходы по проектам

    Robots.txt — это текстовый файл в кодировке UTF-8, который содержит рекомендации поисковым роботам, какие страницы / документы индексировать, а какие нет.

    Robots.txt размещается в корневой папке сайта и доступен по адресу вида https://somesite.ru/robots.txt

    Этот стандарт утвержден Консорциумом Всемирной паутины W3C в 1994 году. Использование Robots.txt является добровольным как для владельцев сайтов, так и для поисковиков.

    Назначение файла Robots.txt

    Основная задача — управление поведением поисковых машин на сайте.

    Приходя на сайт, робот сразу загружает содержимое Robots.txt. Если файл отсутствует, робот будет индексировать все документы из корневой и вложенных папок (если они не закрыты от индексации другими методами). В результате могут возникнуть следующие проблемы:

    • в индекс попадают лишние страницы и конфиденциальные документы (например, профили пользователей), которые не должны участвовать в поиске;
    • до основного важного контента робот может не добраться, так его ресурс и время на сайте ограничены.

    Обрабатывая файл, роботы получают инструкции: индексировать, индексировать частично, запрещено к индексации.

    Как правило, от индексации закрывают следующие документы и разделы:

    • административную панель,
    • системные файлы,
    • кэшированные данные,
    • страницы загрузки,
    • поиск, фильтры и сортировки,
    • корзины товаров,
    • личные кабинеты,
    • формы регистрации.

    Что содержит Robots.txt

    User-agent

    Правило, указывающее, каким роботам оно предназначается. Если не указывать все роботы, а только прописать знак *, это будет значить, что правило действительно для любого известного робота, посетившего сайт.

    Правило для робота «Яндекса»:

    User-agent: Yandex

    Правило для робота Google:

    User-agent: Googlebot

    Disallow

    Правило, указывающее роботам, какую информацию индексировать запрещено. Это могут быть отдельные документы, разделы сайта или сайт целиком (в том случае, если он еще находится в разработке).

    Правило, запрещающее индексировать весь сайт:

    Disallow: /

    Запрет обхода страниц, находящихся в определенном каталоге:

    Disallow: /catalogue

    Запрет обхода конкретной страницы (указать URL):

    Disallow: /user-data.html

    Allow

    Данная директива разрешает индексировать содержимое сайта. Может потребоваться, когда нужно выборочно разрешить к индексации какой-либо контент. Обычно используется в комбинации с Disallow.

    Правило, запрещающее индексировать все, кроме указанных страниц:

    User-agent: Googlebot
    Allow: /cgi-bin
    Disallow: /
    

    Host

    Данная директива сообщает роботу о главном зеркале сайта. С марта 2018 года «Яндекс» полностью отказался от этой директивы, поэтому ее можно не прописывать в Robots. Однако важно, чтобы на всех не главных зеркалах сайта теперь стоял 301-й постраничный редирект.

    Crawl-delay

    Правило задает скорость обхода сайта. В секундах задается минимальный период времени между окончанием загрузки одной страницы и началом загрузки следующей. Необходимо при сильной нагрузке на сервер, когда робот не успевает обрабатывать страницы.

    Установка тайм-аута в две секунды:

    User-agent: Yandex
    Crawl-delay: 2.0
    

    Clean-param

    Правило задается для динамических страниц GET-параметром или страниц с рекламными метками (идентификатор сессии, пользователей и т. д.), чтобы робот не индексировал дублирующуюся информацию.

    Запрет индексации страниц с рекламной меткой — параметром ref:

    User-agent: Yandex
    Disallow:
    Clean-param: ref /video/how_to_look.ru
    

    Sitemap

    Правило сообщает роботам, что все URL сайта, обязательные для индексации, находятся в файле Sitemap.xml. Прописывается путь к этой карте сайта. При каждом новом визите робот будет обращаться к этому файлу и вносить в индекс новую информацию, если она появилась на сайте.

    User-agent: Yandex
    Allow: /
    sitemap: https://somesite.ru/sitemaps.xml
    

    Как создать файл Robots.txt

    Файл создается в текстовом редакторе с присвоением имени robots.txt. В этом файле прописываются инструкции с учетом озвученных выше правил. Далее файл загружается в корневую директорию сайта.

    Для блога или новостного сайта можно скачать стандартный robots.txt с сайта движка или форума разработчиков, подкорректировав под свои особенности.

    Как проверить Robots.txt

    Проверка валидности файла Robots.txt проводится с помощью инструментов веб-мастеров Google и «Яндекса».

    См. также

    Иннокентий, Руководитель библиотеки знаний

    Настроим рекламу за вас

    Бесплатная профессиональная настройка вашей рекламной кампании. Идеально для предпринимателей.

    Иннокентий, Руководитель библиотеки знаний
    Телеграм бот @PromoPultBot

    Телеграм бот

    @PromoPultBot — Вы сможете оперативно отслеживать динамику рекламных кампаний, подписываться на отчеты, пополнять баланс и получать важные уведомления cистемы.

    Попробуйте - это очень удобно!