Лемматизация (англ. lemmatization) - это метод морфологического анализа, который сводится к приведению словоформы к ее первоначальной словарной форме (лемме).
Метод лемматизации применяется в поисковых алгоритмах в процессе схематизации веб-документов при их индексировании.
В результате лемматизации от словоформы отбрасываются флективные окончания и возвращается основная или словарная форма слова.
Например, в русском языке словарной формой считается:
Стоит отметить, что в любом естественном языке существует некоторый процент слов, которые могут давать неоднозначные результаты в процессе лемматизации, например, словоформа "вой" может в итоге быть приведена к двум леммам - выть (глагол) и вой (существительное).
В поисковых системах при индексации веб-документов лемматизация не всегда является точной, так как поисковый робот учитывает только одну из возможных лемм словоформы, приведенной в тексте документа.
Лемматизация помогает поисковым системам находить дубли, которые отличаются только словоформами. Поисковый алгоритм сравнивает не словоформы, а леммы: если леммы в шингле совпадают, шингл признается неуникальным.
Лемматизация запросов позволяет избавиться от дублей при составлении семантического ядра. Например, куплю мотоцикл в Москве и купим мотоциклы в Москве с точки зрения ПС являются одним и тем же запросом — купить мотоцикл Москва.
Бесплатная профессиональная настройка вашей рекламной кампании. Идеально для предпринимателей.