Анализ 3000 статей на vc.ru в разделе «Маркетинг»
Вдруг стало интересно, как часто пишут, комментируют и о чем в основном статьи в этом разделе. Вооружившись Python, я запарсил 3000 статей. А также комментарии и лайки, чтобы ответить на ряд интересующих меня вопросов. В этой статье мы посмотрим на общие медиапоказатели, динамику, когортный анализ и анализ текста. А так же поиграем в игру!
Тут будет три блока:
- Общие медиапоказатели
- Анализ текста
- Анализ комментариев
Общие медиапоказатели
Вычисляем, сколько в среднем собирает одна статья.
Видно, что достаточно большой разброс STD есть и большинство распределений смещено влево. Например, лайки: среднее — 10, но при этом процентиль 50 равен 5. Это означает, что половина постов собирает не больше 5 лайков. Процентиль 75 равен 11, значит, 75 процентов статей набирают не более 11 лайков. Это говорит о том, что среди статей есть много неудачных, но при этом есть статьи, которые значительно опережают другие.
Можно посмотреть на гистограмму распределения лайков:
Около 600 статей собрало 0 лайков. 😟 Основная масса статей слева на графике.
Вот, например, распределение по размеру текста:
Похоже, тут гистограммы не очень интересны. Найти процентили, чтобы определять результат, гораздо лучше. Повторим, что число процентиля показывает, какой процент наблюдений не превышает это число. Например, посмотрите на таблицу ниже, если ваша статья набрала больше 17к просмотров, значит, вы входите в топ-1% по просмотрам.
Еще можно сказать:
- 10 процентов статей имеют меньше 253 слов в тексте;
- 90 процентов статей не набирают больше 23 лайков;
- 80 процентов статей не набирают больше 9 комментариев;
- 1 процент статей имеет более 31 картинки (1 статья входит в топ-1% по этому показателю) .
Кстати, вот тут две мои прошлые статьи вошли в топ 10% по лайкам и топ 5% по просмотрам и комментариям: Сравнение скорости загрузки сайтов, сделанных на Bitrix, Tilda, WordPress и Gatsby и Как меняются интересы женщин со временем. Узнаем при помощи данных из социальных сетей.
Напоследок можно кинуть в корреляцию, но тут, увы, ничего интересного. Достаточно очевидно, что лайки, комменты, просмотры влияют друг на друга.
Найдем топ-статьи
По лайкам
По просмотрам
Найдем топ авторов
Данные у нас примерно за полгода. С конца мая до середины декабря 2022-го было 1219 авторов.
Топ по лайкам
Топ по просмотрам
Топ по количеству комментариев
А как часто авторы пишут?
Посчитаем процентили по количеству публикаций за полгода. Тут по горизонтали процентиль, по вертикали — количество публикаций.
10 процентов авторов за полгода написали больше 5 статей. 1 процент авторов сделал больше 18 статей — профессионалы.
Что там в динамике
В какое время выходят статьи и в какой день недели?
Строчки — часы, столбцы — день недели, где 0 — понедельник. Внутри количество публикаций.
Разрежем на месяца
О чем они там пишут?
Сейчас будет немного экспериментальная методика, которую я придумал для своего приложения Awake. Мы возьмем все тексты и разобьем их на слова. Добавим их в таблицу. Каждое слово будет получать статистику из статьи по лайкам, просмотрам и комментариям. Также каждое слово мы обработаем библиоткой pymorphy2, которая приведет слова в словарную форму, это «клиенты» в «клиент». А также скажет, какая грамма. Граммы — это существительные, прилагательные, глаголы, предлоги и т. д.
Вот такая таблица получается на 3 миллиона строк.
Теперь мы можем развлекаться с этой таблицей. Отфильтруем все слова по существительным, сделаем групировку по каждому слову, чтобы найти самые популярные.
Count — количество употреблений этого слова. activ/view — сумма лайков и комментариев делить на показы.
Достаточно ожидаемый список слов. Каждый столбец в этой таблице показывает средние медиапоказатели по каждому слову. Например, статьи со словом «клиент» в среднем набирали 10 лайков, 7 комментариев, 1058 просмотров.
А статьи со словом «год» набирали в среднем больше просмотров, чем другие статьи. Статьи со словом «товар» имели в среднем больше картинок. Статьи со словом «сайт» имели больше activ/view.
Прилагательные
Попробуем вытащить интересные термины и поиграть в игру!
Что чаще употреблялось: «SMM», «SEO» или «контекст»?
Какая компания популярнее: «Яндекс» или Google?
«Яндекс» победил.
Какие термины популярнее? CTR или ROMI? Или, может, вдруг CPA?
Что там по сайтам? Wordpress или Tilda?
Какие слова еще стоит проверить, как думаете? Пишите в комментарии, добавим в часть 2.
Как же группируются слова?
Чтобы ответить на этот вопрос, мы воспользуемся алгоритмом TNSE.
TNSE — нелинейный алгоритм снижения размерности многомерных данных. Простыми словами: есть таблица с большим множеством столбцов, этот алгоритм преобразует таблицу с маленьким количеством столбцов так, что сохранится смысл в значениях, но значения станут абстрактными. В нашем случае это два столбца, которые мы отправим на Scatter plot. Этот прием используют аналитики, чтобы найти группировки в больших данных.
Сейчас будет немного сложно. Построим таблицу следующим образом. Будем брать каждую статью, забирать оттуда только существительные и находить 50 самых часто употребляемых и присваивать им рейтинг по «секретной» формуле. Это очень похоже на протоалгоритмы поисковых систем. После делаем кросс-таблицу, где по строкам слова, по столбцам статьи, а внутри рейтинг. В этой таблице только те слова, которые прошли в топ-50 из каждой статьи. Статьи, где меньше 5 лайков, не участвуют.
Вот небольшой кусок этой таблицы.
Таким образом в нашей матрице будут группировки слов в статьях, и мы отправим их в TNSE. Строим график где X, Y — абстрактные координаты слов, показывающие их близость, размер точки — частота упоминаний слов, цвет просто обычный KMeans для красоты.
Сколько вы видите группировок? Давайте увеличим и посмотрим поближе.
Кластер 3. Фиолетовые точки — что-то про анализ.
Кластер 4. Желтые точки — не очень понятно. Возможно, отзывы об услугах и приложениях.
Вижу для себя направление, связанное с IT, — рассказывать про современные Web-разработки и Data Science для маркетологов. Кстати, рекомендую свой бесплатный курс «База IT для бизнеса за час».
Предполагаю, что кто-то захочет сделать график, где по вертикали будут лайки, по горизонтали — просмотры. Объем кружочка — количество упоминаний. Цвет — кластер.
Подсказка: чем выше точка, тем больше статьи с таким словом лайкали, чем правее, тем больше было охвата. Если смотреть на точки по вертикали, то можно увидеть темы, которые были одинаково популярны, но чем выше, тем больше было отклика. Например, статьи со словами «сайт» и «продвижение» получили одинаковый охват, но точка со словом «сайт» намного выше по вертикали и значит лайков было больше.
Комментарии
За полгода было 6729 комментаторов в разделе маркетинг, которые сделали 18850 комментариев.
Есть важный момент: я не до конца парсил все комменты, потому что это слишком долго и неудобно. Я собрал только первые два уровня глубины. Это значит, что вся статистика в реальности выше.
Топ-комментаторы
Когда же все комментируют? В рабочее время? После работы? До работы?
Более сокращенная версия
Влияет ли время на длину комментария?
Наши любимые процентили по количеству слов в комментариях.
Когортный анализ
Сделаем когортный анализ.
Когортный анализ радует! Очень хороший след от когорт.
Пояснение для тех кто не знаком с когортным анализом — В 6 месяце было 2209 комментариев, в следующем месяце (Период 1) комментаторы из 6 месяца сделали 858 комментариев, дальше они же сделали 754 и т.д.
То же самое в процентах:
Какие слова есть в комментах?
Прилагательные:
Построим график TNSE по существительным.
Вывод
Целью данного исследования были разведка и попытка узнать что-нибудь интересное, чтобы скорректировать свою деятельность. Мне кажется, достаточно много очевидных выводов можно сделать из этих данных — например, что не нужно тут писать проходной контент, он не взлетит.
Получилось найти процентили по основным медиапоказателям, и теперь можно оценивать свои работы по процентилям. Интересно было найти категории внутри раздела при помощи ключевых слов. И посмотреть отклик на термины. Динамический анализ показал, что аудитория растет, и качество контента тоже. На когортном анализе было видно, что тут есть достаточно активное сообщество.
Если у вас остались какие-то вопросы или предложения — я с удовольствием на них отвечу в комментариях. Возможно стоит подключить к этим данным библиотеки из OpenAI, сделаем если будет востребовано.
Кстати, мы тут делаем реактивные сайты на Gatsby, PWA-приложения, дизайн и маркетинг.
Было интересно? Дальше будет интереснее — Подписывайтесь 😊
Появилась продуктовая гипотеза для VC.
Было бы здорово, если бы во время написания статьи, можно было провести анализ этой статьи и посмотреть например похожие статьи или получить какой то фидбек автоматически. Это позволило бы авторам лучше фильтровать свой контент.
верно. это позволило бы указывать автору, что дерьмом на три абзаца платформа и так уже завалена, и никому нет до неё дела
Круто, но странно, что нет приемной, где упоминания косяков тинькофф, авито и прочих?
Так тут только один раздел маркетинг. Можно будет взять "Приемную" для следующей статьи
<Комментарий для разбавления статистики>
годный контент!
Интересно, спасибо!