Особенности национального потребления шаурмы. Статистический анализ. Часть 1
Давно с друзьями и коллегами обсуждал возможность проведения статистического исследования потребителей и точек продажи шаурмы на основании анализа отзывов в тематических приложениях. Наконец-то, появилось время. Итак, представляю широкому кругу читателей нижеследующий аналитический материал.
I. Кратко о методологии исследования
Цели и задачи: (1) провести сравнительный лингвистический анализ частоты использования слов "Шаурма" и "Шаверма" в различных населённых пунктах; (2) определить факторы, влияющие на высокую либо низкую оценку точек продажи; (3) определить населённые пункты с высокими и низкими потребительскими оценками точек продажи шаурмы; (4) сравнить цены на шаурму в различных населённых пунктах и сопоставить их с местными зарплатами; (5) по аналогии с индексом "Биг-Мага" сформировать индекс "Шаурмы", т.е. оценить количество порций шаурмы, которые может купить житель населенного пункта со средней зарплатой.
Данные для анализа: отзывы потребителей и данные о точках продаж из приложения, входящего в топ-3 крупнейших тематических приложений о шаурме.
География исследования: Россия, Беларусь, Казахстан, Украина.
Выборка исследования: 72 500 отзывов, 7 645 точек продажи шаурмы.
Инструменты для сбора и анализа данных:
пакеты python: (1) requests - для сбора данных, (2) json_normalize, ElementTree - для разбора json и xml результатов сбора данных, (3) pandas - для формирования первичного массива (датафрейма), (4) pymorphy2 и nltk - для стемминга и нормализации текста отзывов, (5) collocations - для формирования биграмм и выявления ключевых словосочетаний в отзывах
- MS Excel для статистического анализа и визуализации данных
- IBM SPSS для статистического анализа там, где он удобнее, чем MS Excel
II. Сравнительный лингвистический анализ частоты использования слов "шаурма" и "шаверма"
Используемые слова
Чаще всего потребители именуют продукт словом "шаурма" (35% отзывов), на втором месте по популярности слово "шаверма" (29%), далее следуют сокращённые производные слова "шава" (24%) и "шавуха" (10%).
Слово "шаурма"
Чаще всего слово "шаурма" используется в городах Центрального, Южного и Приволжского федеральных округов России. Особенно часто слово "шаурма" используют пользователи из Ростова-на-Дону (74%), Орла (70%), Самары (70%), г. Щелково (68%), г. Пушкино (67%) и Краснодара (65%).
Слово "шаверма"
Термин "шаверма" популярен среди жителей Северо-Западного федерального округа России. Чаще других его используют пользователи в Петергофе (72%), Великом Новгороде (71%) и Пушкине (70%).
Сравнение Москвы и Санкт-Петербурга
В Москве слово "шаурма" используется в 49% отзывов, "шаверма" - в 10%.
В Санкт-Петербурге слово "шаурма" - только в 3% отзывов, а "шаверма" в 61%.
Слово "шава"
Сокращённое производное слово "шава" не имеет чётко выраженной региональной привязки. Чаще других в своих отзывах его применяют пользователи из населённых пунктов: Реутов (45%), Тверь (40%), Новокузнецк (40%), Мурино (40%), Сергиев Посад (38%), Шушары (37%), Калуга (36%) и Минск (35%).
III. Факторы, влияющие на оценку продукта и точки продажи
Кратко о системе оценки
Анализируемый сервис предлагает оценить точку и её продукт по трем характеристикам: (1) "Вкус продукта", (2) "Сытность продукта" и (3) "Атмосфера заведения". Каждая характеристика оценивается пользователем по шкале от 0 до 10 баллов. Далее вычисляется среднее значение всех отзывов и переводится в рейтинг от 0 до 100 баллов. Например, если есть 2 отзыва о "Вкусе продукта" - 5 баллов и 8 баллов, то средняя оценка составит 6,5 баллов. Тогда рейтинг точки по критерию "Вкус продукта" составит 6,5*10 = 65 баллов из 100.
Процедура отбора факторов
Факторы, влияющие на оценку точки и её продукта, отобраны в базу данных исследования по двум направлениям:
Анализируемый сервис содержит информацию о точке: "наличие веганского меню", "наличие туалета", "продажа пива", "возможность безналичной оплаты" (полагаю, что перевод на карту "Сбербанка" или "на телефон" здесь также подразумевается).
- Был произведен семантический разбор отзывов, выделены и сгруппированы по схожему смыслу словосочетания, которые взаимосвязаны с оценкой пользователей и присутствуют не менее, чем в 100 отзывах.
Итоговый список факторов
Формализованные приложением: "наличие веганского меню", "наличие туалета", "продажа пива" и "возможность безналичной оплаты"
- По итогам анализа отзывов: (1) положительные: "сочная шаурма", "шаурма не течёт", "шаурма не разваливается", "сотрудники в перчатках", "хрустящий лаваш", "свежие продукты", "мясо жарят на углях", "быстро готовят", "много мяса", "вкусный соус"; (2) отрицательные: "не свежие продукты", "много капусты", "сухая шаурма", "мало мяса", "сотрудники без перчаток", "мало соуса".
Влияние факторов, формализованных приложением
- Более половины точек продажи шаурмы (56%) предлагают возможность безналичной оплаты (картой либо переводом). В случае наличия такой опции пользовательский рейтинг "атмосферности" точки будет выше на +5 баллов из 100.
- Пиво продаётся в каждой четвёртой точке (27%). Опция также положительно влияет на пользовательские оценки (+5 баллов к рейтингу "атмосферности").
- 23% точек предлагают меню для веганцев. (+6 баллов из 100).
- Туалет есть только в каждой 5-ой точке продажи (22%). Стоит отметить, что опция наиболее важна среди вышеперечисленных для потребителей (+7 баллов в случае её наличия).
Безналичная оплата шаурмы в региональном срезе
Лучше всего опция безналичной оплаты шаурмы представлена в точках продаж таких городов, как Якутск (96% точек), Сургут (95%), Томск (95%), Петрозаводск (90%), Пермь (89%) и Тюмень (88%).
Сложнее всего оплатить уличную шаурму безналичным способом в таких городах, как Киев (только 4% точек принимают данную форму оплаты), Владивосток (13%), Пенза (25%) и Тверь (26%).
Влияние факторов, выделенных на основании анализа отзывов пользователей
В целом, следует отметить, что наличие определённых позитивных / негативных факторов, влияет на общую готовность пользователей поставить более высокую / низкую оценку точке и продукту. По одним факторам это выражено в большей степени, по другим - в меньшей.
Проще говоря, если пользователь доволен / не доволен значимым фактором, то он наверняка одновременно поставит более высокую / низкую оценку и "вкусу", и "сытности", и "атмосфере".
Положительные факторы в отзывах
Потребители значительно выше оценивают точки продажи, в которых продаётся "сочная шаурма" (+20 баллов из 100 по критерию "вкус", +16 к "сытности" и +18 к "атмосфере").
Одновременно, качественная шаурма должна быть приготовлена таким образом, чтобы "из нее ничего не вытекало" (+15 ко "вкусу", +14 к "сытности" и +13 к "атмосфере") и сама она "не разваливалась (+15 ко "вкусу", +13 к "сытности" и +14 к "атмосфере").
Также следует отметить, что соблюдение базовых принципов гигиены положительно влияет на оценку пользователей. Если потребитель видит, что сотрудник "готовит продукт в перчатках", то оценка такой точки выше (+12 ко "вкусу", +9 к "сытности" и +11 к "атмосфере").
С распределением влияния других положительных факторов можно ознакомиться на диаграмме ниже.
Отрицательные факторы в отзывах
Больше всего негативных эмоций у потребителей вызывают несвежие продукты в составе шаурмы, что критически влияет на низкую оценку точки продажи (-39 баллов ко "вкусу" шаурмы, -30 к "сытности" и -33 к "атмосфере" заведения).
На втором месте по негативу - большое количество капусты в составе продукта (-31 ко "вкусу", -25 к "сытности" и -25 к "атмосфере").
На третьем месте - слишком сухая шаурма (-34 ко "вкусу", -22 к "сытности" и -21 к "атмосфере).
С распределением других отрицательных факторов можно ознакомиться на диаграмме ниже.
Продолжение следует... (из него вы узнаете: (1) в каких городах самая и невкусная шаурма; (2) где самая дешёвая, а где самая дорогая шаурма; (3) сколько порций шаурмы могут позволить себе жители различных городов постсоветского пространства)