Русский язык очень богат, он насчитывает огромное количество слов, а уж тем более словоформ. До того как столкнёшься с поисковой оптимизацией ( продвижение сайта самостоятельно ) тебе и в голову не может прийти, что слова имею
Русский язык очень богат, он насчитывает огромное количество слов, а уж тем более словоформ. До того как столкнёшься с поисковой оптимизацией (
продвижение сайта самостоятельно) тебе и в голову не может прийти, что слова имеют свой вес. Так зачем же нам нужно представлять себе эти веса слов и чем они могут нам помочь или наоборот помешать? Дело в том, что используя вес слова, можно сделать вывод о важности их в контексте данного документа в общей коллекции (то есть оценить релевантность). В теорию данного вопроса углубляться не буду, поиск в помощь — начать можете
отсюда.
Как всегда не будем ходить вокруг, да около — окунемся в конкретный пример.
«Золотой ключик» — золотой или ключик?
Да, для примера я взял вот такой, вполне не коммерческий запрос. Он вовсе не однозначен для ПС. Как же ПС определяет релевантные документы? Найдем в выдаче ссылку на полную сказку Толстого (например эту).
Читать сказку про Буратино мы будем сейчас чуть иначе чем обычно. Нас интересует сохраненная в кэше ПС страница данного сайта.
Кстати я написал статью - как написать статью для ТОП. Тайтл это один из факторов, работать нужно со всеми факторами.
Пролистав всю сказку (а она оказывается и не такая уж большая) мы видим подсвеченным наш запрос и слова из него в словоформах. Но если посмотреть внимательно и использовать поиск по странице, то заметим странную особенность. В принципе понятно что искомое словосочетание подсвечено, а вот с отдельными словами — что то не так.
- Слово ключик — подсвечено во всем документе во всех его морфологических вхождениях. Не подсвеченными остались лишь два «ключа», вхождение ключ и его словоформа ключи Но этого и следовало ожидать, слова «ключ» и «ключик» для ПС все же разные, а не словоформа одного и того же (хотя я думаю вхождение слова «ключ» добавит релевантности странице). При этом поисковой системе совершенно все равно стоит ли рядом (или хотя бы близко) слово золотой.
- Слово золотой — подсвечено там, где оно встречается вместе со словом ключик, а вот отдельно от него уже нет. И даже в случае прямого вхождения (в той словоформе в которой мы писали его в запросе) мы видим его не выделенным без упоминания ключика. Почему же ПС по разному отнеслась к словам?
Что тяжелее, золото или ключик?
Весь секрет кроется в двух фактах. Посмотрим по порядку.
- Яндекс не так глуп, как думают некоторые. Ему хорошо знакомо такое понятие как семантический анализ. Он легко может определить, что золотой— это свойство (прилагательное), а вот ключик предмет (существительное). Понятно, что предмет — важнее его свойства. Но это не главное, давайте взглянем на другой запрос: «антикоррозийный ключ«. Тут прилагательное антикоррозийный, а существительное ключ а картинка вот такая: Хорошо видно, что словоформы слова ключ не выделяются, если находятся далеко от характеризующих их в запросе прилагательного. Хотя прямое вхождение всей поисковой фразы и не обязательно, их могут разделять несколько слов.
- Куда важнее в нашем первом примере веса слов. Дело в том, что слово золотой достаточно часто употребимо, а слово ключик встречается в нашем языке значительно реже. Исходя из этого ПС отдает предпочтение слову «ключик» воспринимая вхождение слова золотой как некое дополнение имеющее ощутимое значение лишь вместе с главным словом.
Зная, что ключ и ключик для Яндекса это разные слова проверим это утверждение. Заменим свой запрос на "
золотой ключ", слово ключ более употребимо — наверно даже чаще чем золотой. посмотрим что можно найти в кэше ПС. Тут уже ни ключ ни золотой по отдельности Яндекс не интересуют, важно только когда эти слова связаны. Попробуем понять, как это работает.
Можно ли оценить вес слова и что это даст?
Если Вы почитали немного теории на тему TF-IDF, то сложность данной задачи вам должна быть понятна. Все не так просто, если TF (частоту слова) мы можем определить, то IDF (обратная частота документа) нам не ясна и данных мы таких не найдем. Собственно проблемы то две:
- Любые попытки найти словари с обратной частотностью приведут нас к тому, что на страницах своего сайта Вы встретите слова (термины, сленговые обороты) не вошедшие в словарь. Таким образом это будет самым частотным словом для Вас, но поверьте это далеко не всегда так — некоторых слов просто нет в словарях.
- Даже найдя искомое слово в каком то словаре — вы не решите проблему. Дело в том, что IDF — это инверсия частоты, с которой некоторое слово встречается в документах коллекции, а коллекцией документов для Яндекса будет проиндексированная им часть интернета. Вы ни когда не узнаете насколько данные Вашего словаря коррелируют со знаниями Яндекса о великом русском языке. Ещё хотел бы заметить что Яндекс наверняка не использует в прямую алгоритм TF-IDF. Возможно для расчета веса имеет значение не только количество документов со словом, но так же и количество отдельных ресурсов (сайтов) с искомым словом во всей коллекции, а это могут быть очень разные показатели.
Вывод один, узнать вес слова для ПС нельзя. Но выход то найти хочется, давайте поразмышляем.
- Яндекс дает подсказку номер один, посмотрим на результат выдачи запроса, точнее на то что указано рядом с запросом: Уже понятно, что 129 млн. больше чем 2 млн. ответов. Хотя данные очень не точные, но в таком случае (очень большая разница) уже становится понятно поведение ПС при выделении главного слова в запросе. Но есть ли ещё варианты?
- Метод, которым я сам часто пользуюсь, он не лишен изъянов — но неточные цифры, лучше полного их отсутствия. В основе его я положил предположение (возможно совершенно не верное), что все что пишется в интернете должен кто то читать. А что бы прочесть информацию — ее нужно как то найти. А ищем мы ее в поисковой строке Яндекса, который бережно сохраняет для нас эту статистику. Итак для того что бы оценить частотность слова в коллекции яндекса я использую подсказку номер два. Яндекс Вордстат. О работе с этим сервисом и необходимыми программами я упоминал в этой статье.
PS. Для расчета TF есть программа WebSite Auditor и кстати она бесплатная.
Для удобства я использовал бесплатную программу
Key Collector. Она платная, бесплатный оналог словаЕБ =) Достаточно вбить в поисковик и скачать. Частотности на Вордстате бывают трех типов:
-
базовая
-
в кавычках
-
с восклицательным знаком перед словом
К примеру (слово, «слово» и «!слово»). Что все это значит.
Базовая частотность показывает сколько раз данное слово или фраза употреблялись в поисковых запросах во всех его словоформах (и возможно не только они, но и другие слова).
Частотность «слова» означает количество запросов только данного слова во всех его словоформах (без доп. слов).
«!Частотность» вот в таком виде покажет сколько раз запросили именно это слово, употребив его именно в этой словоформе.
Нам интересно в этом разрезе не конкретная словоформа и даже не слово — запрос, нам интересно сколько раз словоформы данного ключа набирали на клавиатуре в поисковой строке — то есть базовая частотность. Снимем для порядка все виды и посмотрим.
По базовой частотности золотой обогнал ключик в 27,5 раз, по частотности в кавычках в 30 раз, а по точной в 23,5 раза. Все это в два раза ниже варианта с выдачей (там в 64,5 раза, но ему я не доверяю в пограничных случаях). С первым вариантом разобрались, естественно слово
ключик в этом запросе значительно важнее
золотого — отсюда и такое отношение ПС. А что же с антикоррозийным и просто с ключом? Посмотрим: Что же, теперь все понятно. Слово
ключ — имеет частотность сравнимую со словом
золотой, отсюда и подтверждение нашего наблюдения. Запрос
золотой ключ работает только в паре, так как оба слова — общеупотребимые в равной степени. А
антикоррозийный поменялся ролями с
ключиком, так как термин еще более редкий.
Как это можно использовать?
Самое интересное, что понимая все это — можно не только что то улучшить, но и исправить ошибки. Вывод прост низкочастотные слова перетягивают на себя вес, как в запросе так и на странице и в метатегах.
-
- Заполняя тег title избегайте применения «тыжелых» слов не входящих в семантическое ядро в заголовках Title и H1. Например если в заголовке для пользователя нужно кроме ключа написать «ключ А — зависимость от Параметра В», то взглянув на скриншот Вы поймете что правильнее будет «Ключ А, влияние Параметра В». Так как такое не важное для нас слово как зависимость примерно в полтора раза «тяжелее» слова влияние.
- Ставьте более весомые слова из семантического ядра ближе к началу заголовка, так как первые слова имеют больший вес в предложении и в заголовке соответственно.
- Применить знание весов слов можно в Title , заголовках H1, H2, тегах alt для изображений, при составлении анкоров ссылок при внутренней перелинковке, а также просто при написании текста страницы.
На этом пожалуй стоит остановится. Как уже не раз писал — в Яндексе все не так просто, как написано тут, все работает намного сложнее. Однако, понимание таких простых принципов будет Вам в любом случае на пользу.