Анализ рынка на примере распостранения COVID-19 в Беларуси
У вас минимум официальных данных, но необходимо оценить ситуацию на рынке. С такой ситуацией я столкнулся, когда захотел понять, что происходило в Беларуси с вирусом, и для решения задачи использовал привычные в работе инструменты.
Предисловие
Коронавирус правительство Республики Беларусь долгое время отрицало, а потом заявила о победе над вирусом. В Беларуси живут мои близкие, поэтому я решил узнать хотя бы тенденцию распространения ковида по городам.
Поиск точек для расчётов
Данные по заболевшим в РБ публиковались на сайте Минздрава без разбивки по городам и вот в таком виде:
Поиск альтернативных источников данных
Изучив симптомы болезни и подумав о поведении больных, появилась идея об использовании статистики WordStat и Google Trends.
В чём суть:
Аносмия (отсутствие обоняния) — это один из первых симптомов COVID-19.
⅔ людей, у которых был положительный результат ковида, не чувствовали запахи.
Гипотеза:
Если человек резко перестаёт чувствовать запахи, он начинает искать причину в интернете и вбивает запросы на подобии “не чувствую запахи”.
Проверка гипотезы:
Соотношу официальные данные Минздрава и данные Yandex.WordStat по неделям (вся Беларусь) и вижу следующую картину:
Визуально видна зависимость до 25.05, с 25.05. идёт несоответствие, словно в официальной статистике меньше заболевших, чем на самом деле...
Визуальный анализ это хорошо, но нужны цифры, чтобы убедиться в связи показателей.
Провожу на коленке регрессионный анализ в Excel и получаю коэффициент детерминации = 0,86. Окей, с этим можно работать.
Строим графики
Собираю данные запросов по областям, нахожу доли запросов каждой области в общей сумме запросов, теперь можно вывести данные по городам с учетом официальной статистики.
Ого, уже лучше, а то даже такой статистики нет у жителей РБ.
Формируем данные по городам в разрезе времени
Поскольку мне известно:
- количество запросов по городам и по неделям,
- общие официальные данные,
- угол наклона регрессионной прямой (9,766762154).
Я могу приблизительно увидеть, как распространялся вирус по городам, и ориентировочное количество больных.
Зараженные по соотношению – это расчётное число зараженных с учетом наклона регрессионной прямой.
Выводы
Зависимость между запросами "не чувствую запахи" и положительными тестами на COVID-19 есть, эта зависимость не даёт 100% достоверной статистики по распостранению вируса, но является взглядом с другой стороны.
Есть ограничения у данного метода: данные в вордстате можно разбить только на недели и с задержкой на 5 дней.
Если есть желание мониторить тематические запросы и выявлять вспышки по городам в режиме онлайн, тогда надо выкупать показы по ключам в Google и Yandex. Даже со ставками на самую низкую позицию вы будете получать статистику по всем показам, и уже эту статистику использовать для анализа ситуации.