Анализ текстов конкурентов перед написанием контента

Пришла пора применить знания, полученные на занятии про написание контента, на практике.

Дабы облегчить себе жизнь и своим конкурентам выберу очень животрепещущую тему: учебный запрос :)

Немного теории про применяемые термины:

Без вкуривания в эту часть всё остальное читать возможно бессмысленно...

Статистическая мера текста - TF-IDF

TF выражает отношение вхождений отдельно взятого слова к общему количеству слов в отдельно взятом документе - частота слова

DF - частота документа - выражается отношением общего числа документов с конкретным ключевым словом к числу документов вообще. В данном случае число документов вообще - это общее количество проиндексированных поисковой системой страниц.

IDF - это DF вверх ногами

Мера TF-IDF позволяет оценить вес ключевого слова во всех проиндексированных поисковой системой страницах.

Формулы (стибрено с википедии):

TF, где ni - число вхождений слова в документ, сумма в знаменателе - общее число слов в документе

IDF, где |D| - количество документов, а хрень в знаменателе символизирует количество документов, в которых встречается искомое ключевое слово

Но существует достаточно большее число методик расчёта IDF. Самый простой способ - это разделить количество документов, в которых встречается ключевое слово на число документов в поисковой системе.

Для расчёта окончательного веса слова небходимо разделить TF на DF или TF умножить на IDF.

Для чего нужно знать вес слова

Основное назначение - это что-бы наши ключевые слова были самыми весомыми на продвигаемой странице сайта. Побочный эффект - можно увидеть "несовместимость" ключевых слов для продвижения на одной странице сайта из-за кардинально различающихся их весов.

Например слов гроб весит 100 у.е., а слово тапок - всего 5. И из этого следует, что если начать двигать на одной странице гроб с белыми тапками, то текст может тупо выбиваться из закономерностей Ципфа и будет распознан поисковой системой как неестественный с вытекающими из этого фильтрами. Плюс вес белых тапок может раствориться в весе гроба.

Законы Ципфа AKA Зипфа

Закон Зипфа - вхождений к ранкуЧто такое закон Ципфа - это (далее википедия):

эмпирическая закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому ранку этого слова). Например второе по используемости слово встречается примерно в два раза реже, чем первое, третье - в три раза реже, чем первое, и т. д.

Основное знание из этого чуда: существует величина C (ранк-частота), которая более или менее постоянная для текста на определённом языке. Для литературного русского - это 0.06...0.07.

Для расчёта C применяется следующая формула: C=(Частота вхождения слова * Ранг частоты)/Число слов


Закон Зипфа - ранк-частота
На изображение посчитанная по закону Зипфа - ранк-частота для топ ключевых слов для топ-10 Яндекса по теме "межкомнатные двери". Как видно из графика в стране полный бардак.

Ципф также установил, что частота и количество слов, входящих в текст с одной частотой, зависимы между собой и только слегка отличаются для разных языков. Выражается понятием количество-частота=количество вхождений слова/частота слова.

Желающие могут попробовать постигнуть знание дальше, а я попытаюсь проанализировать себя и конкурентов по учебному запросу.

Анализ текстов конкурентов по учебному запросу

Первым делом спрашиваю в Яндексе учебный запрос и на попавшуюся топ-4 (остальные бессмысленные) натравливаю любой семантический анализатор текста. Для реальной жизни лучше использовать сайты в топ 20. Не забываем выставить нужный регион в поисковике, если он это умеет.

Беглый анализ показал, что первые четыре страницы в топе Яндекс состоят из 662, 1236, 594 и 995 слов и содержат стоп-слов: 197, 427, 249 и 268. Т.е идеальная длина текста должна быть где-то в районе 900 слов. Не стоит забывать выкинуть из анализа всё, что сидит под <noindex>. Для Яндекса самый простой способ - это взять страницу из кэша, но она может быть уже слегка устаревшей.

Ранк-частота для страниц сайтов-конкурентов по учебному запросу получилась разная: от 0.003 до 0.035, что вываливается из рекомендуемого для русского языка.

Теперь пройдусь собственно по словам: для анализа буду брать слова с частотой в районе единицы и выше, т.к. дальше идёт откровенный бред не по теме. Попутно накладываю ограничения в виде здравого смысла, ибо тема достаточно загадочная.

Анализирую текст, пришёл к выводу, что помимо всех вариантов написания слов учебный запрос в тексте должны присутствовать слова сайт, поиск/поисковый, seo, продвижение, учёба, курс и лекция. Частота основного запроса от 5 до 9%.

Осталось сесть и написать текст, используя рекомендации выше. А потом потиху следить за конкурентами и вносить коррективы по мере изменения позиций в топе.

Сайты-конкуренты разделились на две кучки - кто-то двигает главную, а кто-то отдельную страницу сайта. Т.е. и для меня можно использовать любую из двух стратегий.

Теперь по структуре страницы. У части это главная блога с лентой, в которой в заголовках размазан учебный запрос, а для остальных это контентная страница со статьёй. У большинства присутствуют изображения.

Написание текста скорее всего доверю бирже копирайта, т.к. похоже что их придётся использоваться в процессе обучения.

Задание копирайтеру

Написать структурированный текст длинной около 900 слов на тему учебный запрос, использовав следующие слова: сайт, поиск/поисковый, seo, продвижение, учёба, курс и лекция.

Словосочетания "учебный запрос" во всех вариациях должно употребляться с частотой около 7%.

Оставить место в тексте для двух-трёх изображений.

Рассуждения на тему тыринга контента

Вышеописанный пример несколько неудачен из-за его пока малой распространённости. Ближе к концу занятий на курсах учебный запрос должен быть в топ-40.

Алгоритм анализа текстов конкурентов.

  1. Берём топ-20 по поисковой системе. Для родной Беларуси это может быть топ 10.
  2. Прогоняем через любой анализатор контента. Рекомендуют истио. Не забываем выкинуть то, что сидит в noindex.
  3. Ныкаем себе следующие данные: длина без пробелов, количество слов и топ-20 слов без стоп-слов (по желанию топ слов можно расширить или уменьшить)
  4. Считаем среднюю длину текста, выбрасывая то, что очень откровенно отличается от остальных. Для этого дела даже существует специальные формулы, которые я изучал ещё в архитектурно-строительном техникуме на каком-то предмете, связанном со статистикой.
    На выходе имеет среднюю длину контента, которая нам нужна.
  5. Следом анализируем количество прямых вхождений кейвордов, тупо заходя на сайты и считая их руками.
    На выходе имеет число точных вхождений ключевиков/фраз.
  6. Считаем количество словоформ методом вычитания из данных истио точных вхождений, полученных шагом выше
  7. Затем получаем наше семантическое ядро. Для этого данные из истио по всем сайтам скармливаем опять-же в истио, отбрасываем те слова, что редко встречаются и получаем собственно ядро.
  8. Всё. Телемаркет. Осталось написать текст самому или дать задание копирайтеру на базе имеющейся длины текста, количества прямых вхождений и семантического ядра.

Важно. Смотрите на структуру анализируемых сайтов. В моём домашнем задании по теме чётко разделялись две конкурирующие структуры: каталог и текст с картинками. Возможно придётся выбрать один из вариантов структурирования текста или применить оба варианта, но на разных страницах.

PS: Стырено с форума Artox и слегка доработано.

RSSAdd to Google

Обсуждение:

Как вам материальчик? *



















Тема:

Мысль:

Как звать-то:

Почта:

PS: Комментарии публикуются только после проверки модератором.

PPS: E-mail'ы не публикуются.

* обязательные поля