Русский язык очень богат, он насчитывает огромное количество слов, а уж тем более словоформ. До того как столкнёшься с поисковой оптимизацией ( продвижение сайта самостоятельно ) тебе и в голову не может прийти, что слова имею
Русский язык очень богат, он насчитывает огромное количество слов, а уж тем более словоформ. До того как столкнёшься с поисковой оптимизацией (продвижение сайта самостоятельно) тебе и в голову не может прийти, что слова имеют свой вес. Так зачем же нам нужно представлять себе эти веса слов и чем они могут нам помочь или наоборот помешать? Дело в том, что используя вес слова, можно сделать вывод о важности их в контексте данного документа в общей коллекции (то есть оценить релевантность). В теорию данного вопроса углубляться не буду, поиск в помощь — начать можете отсюда.
Как всегда не будем ходить вокруг, да около — окунемся в конкретный пример.
«Золотой ключик» — золотой или ключик?
Да, для примера я взял вот такой, вполне не коммерческий запрос. Он вовсе не однозначен для ПС. Как же ПС определяет релевантные документы? Найдем в выдаче ссылку на полную сказку Толстого (например эту).
Читать сказку про Буратино мы будем сейчас чуть иначе чем обычно. Нас интересует сохраненная в кэше ПС страница данного сайта.
Кстати я написал статью - как написать статью для ТОП. Тайтл это один из факторов, работать нужно со всеми факторами.Пролистав всю сказку (а она оказывается и не такая уж большая) мы видим подсвеченным наш запрос и слова из него в словоформах. Но если посмотреть внимательно и использовать поиск по странице, то заметим странную особенность. В принципе понятно что искомое словосочетание подсвечено, а вот с отдельными словами — что то не так.
- Слово ключик — подсвечено во всем документе во всех его морфологических вхождениях. Не подсвеченными остались лишь два «ключа», вхождение ключ и его словоформа ключи Но этого и следовало ожидать, слова «ключ» и «ключик» для ПС все же разные, а не словоформа одного и того же (хотя я думаю вхождение слова «ключ» добавит релевантности странице). При этом поисковой системе совершенно все равно стоит ли рядом (или хотя бы близко) слово золотой.
- Слово золотой — подсвечено там, где оно встречается вместе со словом ключик, а вот отдельно от него уже нет. И даже в случае прямого вхождения (в той словоформе в которой мы писали его в запросе) мы видим его не выделенным без упоминания ключика. Почему же ПС по разному отнеслась к словам?
Что тяжелее, золото или ключик?
Весь секрет кроется в двух фактах. Посмотрим по порядку.- Яндекс не так глуп, как думают некоторые. Ему хорошо знакомо такое понятие как семантический анализ. Он легко может определить, что золотой— это свойство (прилагательное), а вот ключик предмет (существительное). Понятно, что предмет — важнее его свойства. Но это не главное, давайте взглянем на другой запрос: «антикоррозийный ключ«. Тут прилагательное антикоррозийный, а существительное ключ а картинка вот такая: Хорошо видно, что словоформы слова ключ не выделяются, если находятся далеко от характеризующих их в запросе прилагательного. Хотя прямое вхождение всей поисковой фразы и не обязательно, их могут разделять несколько слов.
- Куда важнее в нашем первом примере веса слов. Дело в том, что слово золотой достаточно часто употребимо, а слово ключик встречается в нашем языке значительно реже. Исходя из этого ПС отдает предпочтение слову «ключик» воспринимая вхождение слова золотой как некое дополнение имеющее ощутимое значение лишь вместе с главным словом.
- Любые попытки найти словари с обратной частотностью приведут нас к тому, что на страницах своего сайта Вы встретите слова (термины, сленговые обороты) не вошедшие в словарь. Таким образом это будет самым частотным словом для Вас, но поверьте это далеко не всегда так — некоторых слов просто нет в словарях.
- Даже найдя искомое слово в каком то словаре — вы не решите проблему. Дело в том, что IDF — это инверсия частоты, с которой некоторое слово встречается в документах коллекции, а коллекцией документов для Яндекса будет проиндексированная им часть интернета. Вы ни когда не узнаете насколько данные Вашего словаря коррелируют со знаниями Яндекса о великом русском языке. Ещё хотел бы заметить что Яндекс наверняка не использует в прямую алгоритм TF-IDF. Возможно для расчета веса имеет значение не только количество документов со словом, но так же и количество отдельных ресурсов (сайтов) с искомым словом во всей коллекции, а это могут быть очень разные показатели.
- Яндекс дает подсказку номер один, посмотрим на результат выдачи запроса, точнее на то что указано рядом с запросом: Уже понятно, что 129 млн. больше чем 2 млн. ответов. Хотя данные очень не точные, но в таком случае (очень большая разница) уже становится понятно поведение ПС при выделении главного слова в запросе. Но есть ли ещё варианты?
- Метод, которым я сам часто пользуюсь, он не лишен изъянов — но неточные цифры, лучше полного их отсутствия. В основе его я положил предположение (возможно совершенно не верное), что все что пишется в интернете должен кто то читать. А что бы прочесть информацию — ее нужно как то найти. А ищем мы ее в поисковой строке Яндекса, который бережно сохраняет для нас эту статистику. Итак для того что бы оценить частотность слова в коллекции яндекса я использую подсказку номер два. Яндекс Вордстат. О работе с этим сервисом и необходимыми программами я упоминал в этой статье.
PS. Для расчета TF есть программа WebSite Auditor и кстати она бесплатная.Для удобства я использовал бесплатную программу Key Collector. Она платная, бесплатный оналог словаЕБ =) Достаточно вбить в поисковик и скачать. Частотности на Вордстате бывают трех типов:
-
базовая
-
в кавычках
-
с восклицательным знаком перед словом
Как это можно использовать?
Самое интересное, что понимая все это — можно не только что то улучшить, но и исправить ошибки. Вывод прост низкочастотные слова перетягивают на себя вес, как в запросе так и на странице и в метатегах.-
- Заполняя тег title избегайте применения «тыжелых» слов не входящих в семантическое ядро в заголовках Title и H1. Например если в заголовке для пользователя нужно кроме ключа написать «ключ А — зависимость от Параметра В», то взглянув на скриншот Вы поймете что правильнее будет «Ключ А, влияние Параметра В». Так как такое не важное для нас слово как зависимость примерно в полтора раза «тяжелее» слова влияние.
- Ставьте более весомые слова из семантического ядра ближе к началу заголовка, так как первые слова имеют больший вес в предложении и в заголовке соответственно.
- Применить знание весов слов можно в Title , заголовках H1, H2, тегах alt для изображений, при составлении анкоров ссылок при внутренней перелинковке, а также просто при написании текста страницы.