Шинглы, поиск дубликатов и уникальность контента

Версия для печати

Выпуск №49: Шинглы, поиск дубликатов и уникальность контента

Здравствуйте!

Лето – время учиться интернет-рекламе! В этом отлично поможет программа курсов на июнь, которую мы уже выложили на сайте Обучающего Центре CyberMarketing. Кстати, в Центре два новых семинара:

• Юлия Микеда (директор по развитию рекламного CPA агентства WebMedia Ltd.) – «Медийная реклама и PR в интернете»;

• Антон Агапов (исполнительный директор Apollo-8) – «SEO и контекстная реклама в сфере медицины, красоты и здоровья».

Зарегистрироваться можно прямо на сайте Центра.

P.S. Продолжается конкурс «PromoPult без границ» – гонка за iPad 2 началась!

С уважением, Сергей Баиров, директор по маркетингу PromoPult.

SEO-технологии

Уникальность контента: шинглы и честность

В прошлых выпусках рассылки мы уже обсуждали контент: и с точки зрения защиты от копирования, и с точки зрения создания с нуля. Если говорить о продвигаемых сайтах, то альтернатив полностью оригинальному контенту нет – что, кстати, не исключает рерайта. Например, если речь идет о продаже товаров не собственного производства, то даже добросовестный копирайтер при создании описаний для сайта будет пользоваться информацией из официального каталога производителя. Поэтому рерайт бывает «белым», и далеко не всегда полностью оригинальное описание iPad 2, порожденное исключительно воспаленным воображением автора, ни разу не державшего его в руках, будет лучше качественного, глубокого рерайта информации с сайта Apple. Скажем прямо, он будет хуже – «водянистее» и глупее. Итак, оригинальный контент не всегда выдумывается из головы. Тем не менее, он должен быть модифицирован с точки зрения формы настолько, чтобы поисковики посчитали его уникальным.

Сформулируем все это более кратко:

Для успешного продвижения сайта весь открытый для индексации контент должен быть уникальным с точки зрения поисковых систем;
На сайтах, обязанных обеспечить конверсию посетителей в покупателей, контент может быть либо полностью авторским, либо максимально глубоким и качественным рерайтом.
На качественных сайтах, продающих ссылки, контент должен быть уникальным, но уникализация может проводиться более грубо – чтобы обеспечить создание большого объема текстов за минимальные деньги.

Создание продающих текстов – тема для отдельной статьи (или даже книги), а с точки зрения уникализации и рерайта все упирается в алгоритмы поисковых систем. Как они распознают заимствования? Какие алгоритмы и модели используют? Знание ответов на эти вопросы поможет сэкономить немало сил и средств всем, кто занимается наполнением сайтов. Ведь, как известно, поднять движок и немного «допилить» шаблон дизайна – дело одного-трех дней, а вот наполнить 500-2500 страниц уникальным контентом – не такая уж тривиальная задача.

Постановка задачи: поиск дубликатов

На первый взгляд, все просто: поисковик индексирует все документы в интернете. Почему бы не сравнить все эти страницы, чтобы выявить дубли? Но даже для сравнения каждого документа в индексе «Яндекса» с каждым другим, нужно возвести в квадрат число 10 727 736 489 – это будет необходимым числом операций. Причем понятно, что полнотекстовое сравнение не даст правильных результатов – достаточно заменить несколько слов, букв и знаков препинания, взять фрагмент, переставить местами предложения и так далее, чтобы сравнение «лоб в лоб» показало отсутствие совпадения. Если же сравнивать небольшие кусочки текста (например, разбить каждый документ на цепочки по 3-6 слов), то количество потребных операций возрастет на множество порядков. Таких компьютеров просто не существует, и даже прогресс в создании суперкластеров не даст такой производительности. Тупик? Как бы не так! Сочетанием математических и лингвистических методов задача сравнения огромного количества документов была в значительной степени решена. Это все еще ресурсоемкая процедура, однако она под силу существующим компьютерам. Снижение количества операций стало возможным благодаря алгоритмам шинглов (см. статью Syntactic clustering of the Web за авторством A. Broder, S. Glassman, M. Manasse and G. Zweig, опубликованную в сборнике трудов 6-й международной конференции World Wide Web в апреле 1997 года).

Шинглы

Shingle переводится как «гонт», а гонт – это кровельный материал: дощечки с пазами и выступами для соединения в единый лист. Это алгоритм для поиска дубликатов путем вычисления и сопоставления контрольных сумм выборки канонизированных словосочетаний длиной от 3 до 10 (приблизительно) единиц. Как это работает? Довольно просто:

Текст «канонизируется», то есть приводится к исходным словоформам с выбросом стоп-слов (предлогов, союзов, частиц, знаков препинания и так далее). Например, «мой дядя самых честных правил, когда не в шутку занемог» после канонизации приобретет вид такого типа: «дядя самый честный правило шутка занемочь». Теоретически, может применяться и более жесткая канонизация, когда каждое слово приводится к самому частотному синониму – тогда после обработки исходник для вычисления шингла станет таким: «дядя самый честный правило болеть». Это стало бы мощным способом борьбы с синонимайзерами и ручным рерайтом для разрушения шинглов, которые не меняют порядок слов в текстах, а только заменяют их синонимами.
Канонизированный текст разбивается на фразы длиной от 3 до примерно 10 (ближе к 10) слов. Разбивка текста документа может идти как стык в стык – «дядя самый честный», «правило болеть уважать»; так и внахлест – «дядя самый честный», «самый честный правило», «честный правило болеть» (возможен различный шаг сдвига). Очевидно, что любое изменение канонизированного текста, особенно если оно случится в начале, приведет к появлению других шинглов. Следовательно, необходимо установить в тексте неочевидные «точки отсчета» для разбивки на шинглы: например, как пишет «Яндекс» в презентации схожего алгоритма «Спамообороны», «от буквы „ю“ до буквы „ю“; или от двухбуквия, сумма численных значений символов (букв) которого кратна 50, до следующего такого же». При этом, особенно для разбивки внахлест, текст может содержать много повреждений (попыток уникализации), но разрушены будут не все шинглы, а только непосредственно затронутые повреждениями.
Для каждого шингла вычисляется контрольная сумма. Применяемый метод не столь важен – это может быть любая хэш-функция: например, CRC (cyclic redundancy code) или другой. Главное – последовательности слов превращаются в последовательности цифр, с которыми компьютеру работать гораздо проще.
Создается выборка контрольных сумм шинглов (уже в виде контрольных сумм) – понятно, что сравнение документов по всем шинглам является на порядки более ресурсоемкой (и ненужной) задачей, чем сравнение по нескольким десяткам отобранных значений контрольных сумм. Принцип формирования выборки может быть примерно таким: из заранее созданного списка случайным образом берется 85 математических функций, каждая из которых может описывать интересный для целей data mining параметр: пересечение, вложенность и так далее. Все шинглы документа «пропускаются» через каждое из 85 выражений, что дает на выходе значения, и они присваиваются соответствующему шинглу. Для каждой из 85 функций выбирается шингл с минимальным значением контрольной суммы (просто потому, что нужно выбрать какой-то – можно было бы с таким же успехом брать шингл с максимальным значением). В итоге анализируемый документ получает сигнатуру из 85 значений контрольных сумм. При сравнении с другим документом, над которым была проделана такая же операция, берутся шинглы, отобранные по совпадающим функциям – например, если при отборе шинглов было использовано 27 одинаковых функций из 85, то сравнение идет по 27 этим контрольным суммам.
Если сравнительный анализ показывает высокий уровень совпадения контрольных сумм, документы с очень большой вероятностью являются четкими (без изменений) или нечеткими (с небольшими изменениями) дубликатами.

Следует учесть, что поисковые системы работают не на сто процентов именно так – реализация алгоритма сложнее, последовательность действий может отличаться, но в целом принцип должен стать ясен.

Добить танцем

Шинглы – далеко не единственный метод проверки контента на уникальность и естественность: применяются статистический анализ частотности слов с использованием распределения Ципфа для поиска аномалий, наложение рамок длинных пассажей (абзацеподобных последовательностей слов, длинных шинглов) для поиска совпадений в документах, прошедших ручную обработку-рерайт с разрушением шинглов и другие алгоритмы. В целом задача распознавания дублей текстового контента поисковиками решена – только очень глубокий рерайт, а фактически – создание оригинального контента с такой же информацией, позволяет свести к нулю вероятность санкций при ранжировании. Тем не менее, понимание принципов определения дубликатов позволяет копирайтерам экономить значительные усилия при создании контента для качественных сайтов-доноров.

P.S. Тем, кого заинтересовала математика этой области работы поисковых систем, рекомендуем обратиться к статье специалистов «Яндекса» Ильи Сегаловича и Юрия Зеленкова «Сравнительный анализ методов определения нечетких дубликатов для веб-документов».

Интересное на iTV

Наш телеканал продолжает просветительскую и развлекательную работу!

С каждой неделей передачи все интереснее и интереснее!

Давайте же смотреть:

интервью с евангелистом AlterGeo (российский конкурент FourSquare, геолокационный сервис для «отметок» типа «я в парке Царицыно») Денисом Алаевым;
интервью с Алексеем Клименко, IT-директором Pirate Play (сервиса для борьбы с нелицинзионным контентом) о перспективах файлообмена и нелегальном скачивании того, что должно продаваться за деньги;
новые выпуски «Шорт-листа Дмитрия Быкова» – для тех, кто интересуется сетевой литературой или просто хочет послушать на досуге беседу двух талантливых и очень умных интеллигентов.

Следите за обновлениями:

В ТОП без гирь: аудит сайта от Николая Евдокимова

Добрый день Николай!

Необходима ваша помощь! Я получаю вашу рассылку PromoPult, особое внимание всегда отдаю разделу "В ТОП без гирь". Читаешь и все примеряешь на свой сайт, а нет ли и у меня таких же проблем, но не всегда получается найти ошибки. Читала книгу Игоря Лебединского «Раскрутка веб-сайта», нашла для себя много нового и полезного для своего интернет ресурса. Возникали конечно вопросы в процессе чтения, но многое в процессе работы прояснилось. Если возникает вопрос – беру книгу и смотрю: а поднимался ли тут такой вопрос, а как его решали.

Зарегистрировалась в системе PromoPult и подобрала множество ключевых слов для продвижения страничек сайта http://www.viol-k.com.ua/. Но перед запуском проекта хотелось бы услышать анализ ресурса опытного в этой сфере человека. Я понимаю, что в рубрике “В ТОП без гирь!” вы рассматриваете в основном русскоязычные сайты (ru, cz), но может, вы сделаете исключение для ресурса http://www.viol-k.com.ua.

с 14.10.2009 по 27.02.2010 года продвижением занималась фирма по раскрутке сайта, для более быстрого преодоление песочницы и всех остальных бед молодого сайта. Но в обещанную 10 гугла мы не попали и договор был разорван (все превратилась в выкачивание денег, якобы на очень дорогие ссылки). В последние полгода на ресурс не покупалось новых ссылок, на некоторых страничках корректировались тексты, были изменены адреса на html. Была добавлена новая рубрика строительство и ремонт.

Николай Евдокимов, была бы вам очень благодарна, если бы вы смогли дать рекомендации по сайту http://www.viol-k.com.ua и советы для сайта в системе PromoPult.

Аудит сайта читайте в нашем блоге.

Новости поискового маркетинга

«Яндекс» получил почти 1,5 миллиарда долларов

Росскийский поисковик очень успешно вышел на IPO. Капитализация компании быстро превысила 12 миллиардов долларов, а за продажу 52,2 миллионов акций было выручено порядка 1,5 миллиардов. Основными покупателями стали инвесторы из США. Из этих средств две трети получат акционеры «Яндекса» (в том числе ключевые сотрудники), а порядка 400 миллионов – сама компания.

Комментарий PromoPult

Взрывной рост стоимости акций вызвал серьезный интерес к российским стартапам у западных инвесторов. Тем не менее, мы не думаем, что сейчас на рынок обрушится поток золота и бриллиантов. Инвесторы очень тщательно подходят к выбору проектов, и если у «Яндекса» есть все для роста и контроля рынка, то у большинства российских IT-компаний – нет.

Мэтт Каттс разбушевался

«SEO-лицо Google» появилось несколько раз: сначала Мэтт рассказал, что динамический контент – это нормально, но в индексе будет именно то, что получит робот при визите на страницу, так что если есть желание отдать что-то конкретное, этот контент нужно сделать статическим. Второй ролик был посвящен адалту: людей заинтересовало, почему их PR не растет выше 6. Причина, по словам Каттса, – небольшое количество качественных ссылок: люди посещают порносайты, но не ставят на них ссылки. Серьезные, трастовые ресурсы тоже не ставят. То есть все справедливо, а специального фильтра-ограничителя нет.

Ответы на вопросы

Вопрос: У меня есть время, чтобы отсматривать все покупаемые ссылки вручную, многие площадки добавляю в блэк-лист. Я правильно поступаю?

Ответ: Да, если прошло более 2 месяцев с начала продвижения проекта, а результаты не такие хорошие, как хотелось бы. Тем не менее, подумайте о возрасте ссылок и дайте им «показать себя». Система вполне может купить то, что выглядит не очень хорошо для человека, но с точки зрения поисковых систем эти доноры являются эффективными, они работают.

Вопрос: Мой сайт поднялся в Google, но позиций в ТОП10 «Яндекса» никак не могу добиться. Что посоветуете?

Ответ: Работать над качеством сайта. Ссылочное ранжирование остается и будет оставаться основным фактором продвижения, однако «Яндекс» работает по принципу «кадки Тимирязева» (она же – «бочка Либиха» и закон ограничивающего фактора). Если со ссылочной массой все хорошо, но сайт не оптимизирован, то в более или менее конкурентный ТОП он может и не попасть – до устранения препятствия.

PromoPult.ru: автоматизированное продвижение сайтов

seo@promopult.ru

Мы открыты для ваших предложений

Если у Вас есть интересная тема для нашей рассылки, которая интересует Вас больше всего мы готовы осветить ее в наших выпусках. Присылайте название темы и краткие тезисы и в скором времени Вы получите выпуск рассылки на Вашу тему.

Шинглы, поиск дубликатов и уникальность контента

Настроим рекламу за вас

Новости системы PromoPult

Режим работы PromoPult в новогодние праздники

Управление параметрами кампаний Wildberries теперь в отдельной вкладке

С 17 ноября в старом кабинете ВКонтакте нельзя будет создавать новые кампании

Шинглы, поиск дубликатов и уникальность контента

Оцените выпуск рассылки

Мы открыты для ваших предложений

Рекомендуем почитать

Оцените выпуск

Настроим рекламу за вас

Новости системы PromoPult

Режим работы PromoPult в новогодние праздники

Управление параметрами кампаний Wildberries теперь в отдельной вкладке

С 17 ноября в старом кабинете ВКонтакте нельзя будет создавать новые кампании