Дудь, ретроградный Меркурий и еда: анализ данных в Insta**** помог мне составить портрет типичного подписчика vc.ru
С помощью алгоритмов тематического моделирования я изучил пользователей, подписанных на страницу vc.ru в Insta****, и узнал много интересного. Например, как самоизоляция влияет на поведение и на какие две группы делятся предприниматели.
Привет! Меня зовут Дима Лесневский и я сооснователь компании Optia. Мы с командой помогаем маркетологам принимать решения на основе данных, отслеживать тренды и понимать аудиторию. Всё это — с помощью алгоритмов машинного обучения.
Идеальный мир рекламы и маркетинга, который я представлял в университете, выглядел изящно и понятно. Изучаешь аудиторию, строишь и тестируешь гипотезы, масштабируешь удачные решения. Никаких субъективных оценок, только логика и расчёты. Реальность оказалась сложнее.
Начал с позиции джуниора в рекламном агентстве. Осмыслять происходящее было некогда: нужно собирать и переделывать презентации, а потом заниматься другими презентациями. Слайды с методологией падали в братскую могилу после заглушки «спасибо за внимание», а кампании шли своим путём.
Постепенно рос до синиора и дальше. Через несколько лет работал уже над маржинальностью всего отдела, мотивацией, развитием бизнеса. Следил за тем, чтобы предложения агентства действительно решали задачи клиентов и приносили прибыль компании.
Чтобы уложиться в дедлайны и бюджет, всегда приходилось балансировать между тремя подходами к аналитике:
- Привлечь дорогого сотрудника или даже исследовательскую компанию
- Использовать обученного джуниора и доступные недорогие инструменты
- Придумать красивую историю, а потом найти обоснование
Поиск равновесия повышал личные расходы на психолога, потому что первый вариант убивает маржинальность, второй занимает много времени, а третий – достаточно лицемерный. Без данных работают талант и интуиция отдельных людей, систему построить сложно.
Мне хотелось лучше понимать портрет аудитории, быстро находить тренды, иметь под рукой все нужные срезы информации. Тогда я обратился к приятелю, который руководил отделом data science в ИТ-стартапе Dbrain. Я рассказал ему, с какими проблемами сталкиваюсь в работе, и он предложил объединить наши усилия — его знания в области машинного обучения и мой опыт в маркетинге. Вместе мы решили разработать решение и протестировать его на клиентах агентства.
Оказалось, что совместная экспертиза даёт отличный результат. Технологии сэкономили 20% бюджета крупных рекламных кампаний, помогли подготовить и выиграть несколько тендеров.
Получив первый положительный фидбек, мы решили развиваться дальше. Создали свою компанию, назвали её Optia и стали брать больше проектов по решению маркетинговых задач с помощью технологий.
На этом лирическая часть заканчивается. Сегодня, чтобы показать, как работает наш продукт, мы решили проанализовать аудиторию vc.ru, а именно — пользователей, подписанных на новостной портал в Insta***.
Методология
В выборке подписчиков vc.ru — 29 тысяч пользователей, 5 миллионов постов и 12 миллионов социальных связей. Нет никакой магии, но нужно внимательно относиться к деталям и понимать, какие алгоритмы лучше решают конкретную задачу.
Основное правило работы с данными: мусор на входе — мусор на выходе. Поэтому пайплайн начинается с серии классификаторов, фильтрующих бессодержательный контент.
Дальше на чистых данных работают алгоритмы тематического моделирования, кластеризации и анализа социальных связей. Система строит пространство признаков, которое объясняет содержание постов, а на более высоком уровне — описывает пользователей. После этого можно оставить категории, которые представляют интерес:
На графике — все посты в семантическом пространстве. Точки соответствуют постам, координаты X и Y показывают семантику, цвет – наиболее выраженную тему для наглядности. На самом деле каждый пост определяется взвешенной комбинацией тем.
Большая часть постов стягивается к центру пространства, а разные по смыслу темы хорошо разделяются (например, бизнес и еда). Что интересно: посты про бизнес и саморазвитие визуально распадаются на несколько отдельных кластеров. С ними разберёмся чуть позже, а сначала оценим ситуацию в целом.
Аудитория vc.ru
Сравним усреднённого подписчика vc.ru с усреднённым пользователем Insta****. Читатели vc.ru публикуют у себя больше контента о саморазвитии, путешествиях и бизнесе, меньше говорят о моде, косметике и спорте. Учитывая специфику издания, ничего необычного.
Теперь смотрим, что изменилось в их поведении за последние три месяца. С приходом коронакризиса пользователи стали меньше писать о путешествиях и больше — о работе и уходе за собой в условиях самоизоляции (косметика, спорт, психология).
С контентом всё понятно. Теперь посмотрим, на кого ещё подписываются пользователи vc.ru. Тут тоже без сюрпризов: большинство читает Юрия Дудя, Олега Тинькова, журнал одноимённого банка, издания Forbes, National Geographic и Meduza.
Итог: в спокойные времена читатели vc.ru рассказывают о путешествиях и саморазвиваются, читают блоги предпринимателей и тематические медиа. В период, когда аэропорты закрыты, пользователи сфокусировались на работе и себе.
При помощи обычных сервисов аналитики и ручной обработки больше узнать не получится. Остаётся добавить информацию из медиакита, собрать красивые цифры для отчёта и закончить.
Но мы решили копнуть глубже и разобраться, что стоит за цифрами.
Копаем глубже
Аудитория vc.ru — абстрактная категория. На аккаунт подписываются самые разные люди, которых нельзя уложить в набор из десяти усреднённых параметров. Средние значения — это в принципе условность, которая не всегда описывает реальность.
Нужно изучать внимательнее, чтобы не смешивать всех в одну кучу. Здесь на помощь приходит кластерный анализ на основе контента, который публикуют пользователи. Результат выглядит так:
На этот раз каждая точка — это пользователь, а координаты — проекция семантического пространства на плоскость. График нужен не для того, чтобы оценить качество кластеризации, а чтобы понять близость групп пользователей и их вариативность. Сейчас разберём кластеры аудитории и станет понятнее.
Обычные люди
Самый крупный кластер — 40% — пользователи, очень похожие на усреднённый Insta****. Пишут о путешествиях, немного о стиле, делятся личным опытом и рассказывают о саморазвитии (за последние три месяца — на 14% активнее). Подписаны на аккаунты с советами по личной эффективности, воспитанию детей и шоппингом. Если представите себе активную маму из крупного города — не ошибётесь.
Модный диджитал
Другая группа — 25% — пишет обо всём, почти как предыдущая. Больше всего — о путешествиях, моде, саморазвитии и бизнесе. Важное отличие в том, кого они читают. Аффинитивные для группы аккаунты — агентство Setters, Алина Чичина, Art Basel, Wonderzine, а еще ретроградный Меркурий. Можно легко визуализировать 25-летнюю сотрудницу любого из digital-агентств Москвы или Санкт-Петербурга.
Два сорта предпринимателей
Если помните, тематическая модель разделила посты про бизнес и саморазвитие на несколько различимых подгрупп. Разделение легко объяснить, если внимательнее изучить авторов этих постов.
Оба кластера пишут о бизнесе и саморазвитии. Разница в том, на кого они подписаны. Одни — 15% — читают Тони Робинса, Бизнес-Молодость и курсы по копирайтингу, а другие — 4% — Минпромторг, БКС Премьер и технопарк Сколково.
Прочие
Ещё остались 10% увлечённых путешественников, 3% SMM-щиков, и пара процентов эстетов, которые пишут исключительно о стиле и читают AD Russia.
Моя любимая группа — 2% пользователей, которые пишут исключительно о еде и подписаны на рестораны и страницы с рецептами. Сплошное чревоугодие.
Выводы
Хотелось бы найти ёмкое предложение, которым можно описать всю аудиторию и подытожить анализ. Но не получится — обобщать и усреднять данные, как часто делают сервисы аналитики, неправильно. Кластеризация это наглядно показывает.
В светлом будущем, которое мы в Optia хотим приблизить, усреднённых значений будет меньше, а разумных действий — больше. Цель вполне достижимая, если правильно обращаться с данными.
Технологии решают множество проблем. Можно подбирать блогеров для рекламных кампаний и планировать эффективность размещений. Можно находить тренды и планировать ситуативные кампании, которые точно попадут в сердце аудитории. В конце концов, можно просто синхронизировать проектную команду объективной оценкой ситуации.
Судя по данным, примерно 40% аудитории потенциально заинтересуются этой статьей, а один процент захочет протестировать технологии и напишет на hello@optia.ai.