Баланс
0.00
Расход в день
0.00
Расход в месяц
0.00
Бонусные баллы
получить
Пополнить

Списания и начисления
Расходы по проектам

    Поисковый робот — специальная программа, принадлежащая определенной поисковой системе и предназначенная для индексирования (занесения в базу сайтов поисковой системы) веб-сайтов и их страниц, найденных в интернет-пространстве. Также принятые названия: краулер, бот, паук, webcrawler, bot, automaticindexer, ant, webrobots, webspider, webscutter.

    Принцип работы

    Поисковый робот является браузерного типа программой. Он постоянно сканирует веб-пространство, посещая уже известные ему (проиндексированные) сайты, проходя по ссылкам с них и находя, таким образом, новые ресурсы. Обнаружив неизвестный сайт, и проведя некоторые процедуры, робот добавляет его в индекс поисковой системы.

    Кроме того, поисковым роботом индексируются обновления на сайтах. Причем, периодичность обновлений фиксируется. К примеру, сайт, обновляемый раз в неделю, будет посещаться роботом с той же частотой, а информация на новостных сайтах может индексироваться уже через несколько минут.

    Сайтам, не обладающим внешней ссылочной массой, то есть тем из них, на которые не ведут ссылки с других ресурсов, чтобы быть проиндексированными, необходимо привлечь внимание поисковых роботов. Для этого сайт добавляется в специальную форму поисковой системы. К примеру, в панель вебмастера Яндекс, или в Центр вебмастеров Google.

    Виды поисковых роботов

    На самом деле понятием «поисковый робот» объединена их некоторая совокупность. Каждая поисковая система улучшает процесс сканирования веб-пространства и индексацию, используя несколько роботов, наделенных более узкой специализацией. К примеру, Яндекс сегодня использует следующие, действующие одновременно боты:

    • Yandex/1.01.001 (compatible; Win16; I) — это основной робот Яндекса, занимающийся индексацией.
    • Yandex/1.01.001 (compatible; Win16; P) — его задача: индексация картинок.
    • Yandex/1.01.001 (compatible; Win16; H) — предназначается для обнаружения зеркал сайтов.
    • Yandex/1.03.003 (compatible; Win16; D) — определяет соответствие параметрам индексации страницы, добавленной через форму панели вебмастера. Он первым посещает добавленный ресурс, и только после его положительной оценки за работу принимается основной поисковый бот Yandex/1.01.001.
    • Yandex/1.03.000 (compatible; Win16; M) — данный робот посещает страницу после ее открытия по ссылке «Найденные слова» в поисковой выдаче.
    • YaDirectBot/1.0 (compatible; Win16; I) — индексирует сайты из рекламной сети Яндекса.
    • Yandex/1.02.000 (compatible; Win16; F) — отвечает за индексацию фавиконов сайтов.
    Второй по значимости в Рунете поисковик Google использует похожих по функциям поисковых роботов:
    • Робот Googlebot — основной индексирующий робот системы.
    • Googlebot News — специально созданный для сканирования и индексирования новостей робот.
    • Googlebot Images — робот, занимающийся поиском и индексацией изображений.
    • Googlebot Video — поиск и индексация видео.
    • Google Mobile — индексация сайтов для мобильных устройств.
    • Google AdSense и Google Mobile AdSense — индексация сайтов, участвующих в рекламной сети Google.
    • Google AdsBot — робот, проверяющий качество целевой страницы.
    Другие поисковые системы также используют несколько видов роботов, функционально схожих с перечисленными. Имена поисковых роботов наиболее популярных поисковых систем:
    • Яндекс — «Yandex».
    • Google — «googlebot».
    • Рамблер — «StackRambler».
    • MSN — «msnbot».
    • Yahoo! — «Yahoo! Slurp».

    Управление индексацией

    Несмотря на то, что чтобы быть замеченным, сайт должен оказаться проиндексированным, далеко не всегда требуется, чтобы вся информация с него была доступна пользователям и, соответственно, поисковому роботу. К примеру, интернет-магазины закрывают от индексации страницы с реквизитами покупателей, значительная часть сайтов — административные данные и т.п.

    Закрыть от индексации поисковыми роботами все содержимое сайта или только часть информации, размещенной на нем, можно с помощью файла robots.txt. В нем, согласно определенным правилам, с помощью специальных директив в текстовом формате прописываются указания для поисковых роботов. Надо заметить, что роботы, попадая на сайт, ищут в первую очередь файл robots.txt. Знакомятся с инструкциями (если файл существует) и в соответствии с ними индексируют страницы.

    Директивы файла robots.txt:

    • User-agent — обращение к конкретному роботу конкретной поисковой системы.
    • Disallow — может закрывать как весь сайт, так и отдельные его файлы и страницы.
    • Host — сигнализирует роботу, под URL какого зеркала (если сайт имеет зеркала) индексируется ресурс.
    Бесплатная консультация специалиста PromoPult
    Проанализируем сайт, страницу в соцсети или магазин на маркетплейсе и выявим точки роста.
    Подберем эффективные инструменты, чтобы получить больше трафика и продаж из Яндекса, Google, ВКонтакте и Wildberries.
    Бесплатная консультация специалиста PromoPult
    Иннокентий, Руководитель библиотеки знаний

    Настроим рекламу за вас

    Бесплатная профессиональная настройка вашей рекламной кампании. Идеально для предпринимателей.

    Иннокентий, Руководитель библиотеки знаний
    Регистрация в Системе бесплатна, а заведение проекта займет у вас всего 5 минут. Начните продвижение уже сейчас. Зарегистрироваться