Индекс — это база поисковой системы, которая содержит в структурированном виде собранную поисковыми роботами информацию о веб-документах. Поисковые системы хранят в своих базах почти полные копии контента всех сайтов, которые сочтут подходящими для участия в поиске. Такую копию оптимизаторы называют индексом сайта.
Индексация (индексирование) сайта — это процесс, который включает в себя обход страниц сайта роботом, сбор контента, его структуризацию и добавление в базу.
Содержание индекса представляет собой строго структурированные данные из ключевых слов, текстовых и мультимедийных элементов и ссылок. Благодаря продуманной структуре время обработки поискового запроса сокращается в десятки раз по сравнению с поиском в необработанных документах.
Подробные сведения об индексации сайтов есть в кабинетах веб-мастеров — «Яндекс.Вебмастер» (индексация в «Яндексе») и Google Search Console (индексация в Google).
Проверить индексацию чужого сайта можно, используя в строке поиска запрос site: site.ru или url:site.ru*.
Оператор site выведет весь список проиндексированных страниц сайта, включая страницы поддоменов. Оператор url при использования звёздочки после имени сайта выведет только список проиндексированных страниц на данном домене без учета поддоменов. Используя этот оператор, можно проверить наличие в индексе страницы или целого раздела.
Для продвижения сайта индексация играет большое значение. Если страница не попадёт в индекс, она не будет и ранжироваться, поэтому все страницы, с которых оптимизатор хочет получать поисковый трафик, должны быть проиндексированы как можно быстрее.
Чтобы поисковая система начала индексировать сайт, достаточно добавить его в кабинеты веб-мастера («Яндекс.Вебмастер» и Google Search Console). Если сайт не закрыт от индексации и содержит контент приемлемого, по мнению поисковых систем, качества, первые страницы появятся в индексе в течение недели.
Не все разделы и страницы сайта должны быть проиндексированы. Управлять индексацией страниц можно при помощи файла robots.txt и инструментов в кабинетах веб-мастера.
Директивы Robots.txt разрешают или запрещают индексацию любых доступных поисковым системам страниц и разделов сайта. Официально и Google, и «Яндекс» поддерживают robots.txt. На практике, к сожалению, они иногда игнорируют директивы по неизвестным причинам и индексируют то, что не должны. Проблема решается обращением в техническую поддержку.
В последнее время и «Гугл», и «Яндекс» быстро индексируют и переиндексируют страницы, но иногда этот процесс надо ускорить. В случае с «Яндексом» достаточно отправить URL на переобход в разделе «Переобход страниц». Для переиндексации сайта «Гуглом» рекомендуется использовать сервис «Посмотреть как Googlebot». После просмотра страницы этим сервисом Google быстро переиндексирует сначала просмотренную страницу, а затем связанные с ней.
Иногда необходимо исключить из индекса фрагменты индексируемой страницы, например, дублирующее меню или список, неуникальный фрагмент текста или текст с большим количеством вхождений ключевых слов, который нельзя переписать. В «Яндексе» для этого существует специальный тег <noindex></noindex>, в который помещают исключаемый из индекса контент. Google не поддерживает закрытие части страницы тегом <noindex> и не предлагает никаких альтернатив. Для решения этой проблемы веб-мастера идут на различные ухищрения: размещают текст в виде картинки или подгружают при помощи JavaScript закрытую от индексации страницу.</noindex>
Иногда новый сайт вообще не индексируется поисковыми системами или одной из них. Причин может быть несколько (список не исчерпывающий):
Бесплатная профессиональная настройка вашей рекламной кампании. Идеально для предпринимателей.