Аналитика "для самых маленьких". Базовые понятия анализа данных на простых примерах

Привет, vc.ru! Меня зовут Настя, я руководитель проектов и бизнес-аналитик. В этом посте расскажу про самые-самые азы аналитики данных, которые будут полезны для понимания продуктовых метрик и тестов. Постараюсь кратко и просто рассказать о понятиях, которыми оперирует продуктовая аналитика. Этот пост будет интересен начинающим аналитикам, менеджерам, дизайнерам и всем, кто хочет понимать, о чем говорят аналитики:) Поехали!

В целом, задачи анализа данных можно разделить на 2 больших типа - расчёт метрик и выявление взаимосвязей. С популяризацией data science можно говорить ещё про один тип - предсказание событий на основе данных, но мы пока не будем его касаться, все же, пост для начинающих:)

Метрики в показатели

Многие не разделяют эти два понятия, но раз уж мы с вами зашли разбираться с азов, то на основе опыта и материалов могу сказать, что они используются немного в разных контекстах.

Метрика - это некое измеренное свойство, характеристика объекта или продукта на определённый момент времени. Например, "мой рост 170 см" - это метрика.

Показатель - это метрика, наделенная бизнес-смыслом. Часто, когда мы вводим показатель, речь идёт о каком-либо нормировании - т.е, задаются допустимые рамки для метрики, или выводы, которые мы можем сделать, исходя из метрики. Возвращаясь к примеру "для участия в модельном показе нужно иметь рост 170-180 см, мой рост 170 см, значит, я могу участвовать в показе". Ну или всеми любимые KPI, тоже пример)

Нормальное распределение

Пожалуй, одно из ключевых понятий анализа данных. Для того, чтобы понять, какие какие статистические показатели будут корректы для нашего исследования, нужно понимать, является ли распределение нормальным.

Нормальное распределение проще всего воспринимать в виде графика - мне очень нравится объяснять его на примере с одногорбым верблюдом:)

Аналитика "для самых маленьких". Базовые понятия анализа данных на простых примерах

Если мы построим график, где по оси x - измеряемый признак, а по оси y - частота его встречаемости, то в случае нормального распределения он будет иметь колоколообразную форму. Нормальное распределение часто встречается в медицине, т.к. ему подчиняется множество физиологических показателей человека. Например, рост - мало взрослых людей с ростом 120см, чуть больше - 140, ещё больше - 160, а после отметки в 180 см частота встречаемости снова начинает падать. То есть, если вычислить среднее значение и провести черту, то половина объектов будет находиться до черты, а половина - после.

Диаграмма из кейса <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fjournal.tinkoff.ru%2Frost-stat%2F&postId=752530" rel="nofollow noreferrer noopener" target="_blank">исследования роста россиян</a>
Диаграмма из кейса исследования роста россиян

Для большего понимания приведу пример ненормального распределения. Возьмем оценку приложения в маркете.

Аналитика "для самых маленьких". Базовые понятия анализа данных на простых примерах

Я ограничилась скриншотом рандомного приложения, но на этом примере мы видим - чаще всего встречается оценка 5. 4, 3 и 2 примерно с одинаковой частотой, а 1 снова чуть больше. Если провести черту по среднему значению этого графика (4,3), то большинство оценок будут находится в правой части. Таким образом, для исследования такой выборки нам не подойдёт ряд статистических критериев, справедливый для нормального распределения.

О том, как понять, нормальное ли распределение перед нами и какие критерии подходят для разных видов распределения, разберём в следующем посте.

Мода, медиана и среднее значение

Последнее, на чем остановимся сегодня, это понятия моды, медианы и среднего значения.

Мода - это наиболее часто встречающийся показатель в массиве. Моду можно вычислить как для нормального, так и для ненормального распределения. Единственное, при нормальном распределении она будет находится на самой верхушке нашего колокольно-верблюдного графика или рядом с ней, а при ненломальном - не обязательно. Чем полезно вычисление моды для бизнеса? Зная наиболее частную комбинацию, мы можем к ней подготовиться. Так, например, если мы понимаем, что посетители кофейни часто покупают по 2 стаканчика кофе, то мы можем предложить им удобную упаковку для переноса. Более тревиальный пример - обувь стандартного размера (37-39 для девушек) в магазинах покупается чаще, значит, нужно заказать/изготовить больше экземпляров данных размеров. Так же упомяну, что мод в массиве может быть несколько. Такой показатель будет полимодальным.

Среднее значение - значение, которое является средним арифметическим от суммы всех чисел в массиве. Анекдот про то, что "Если кто-то ест мясо, а я ем капусту, то мы в среднем едим голубцы" - это как раз про среднее значение. Если оно используется в нормальном распределении, будет показательно, если нет - может привести к ошибочным выводам.

Медиана - это значение, которое находится в середине числового ряда, ранжированного по порядку, и как раз оно может дать более точную картину в случае ненормального распределения. Как мы можем использовать это в бизнесе? Например, подписку купили 10 человек, из них 6 по 1000 рублей, 1 за 2000, 3 по 3000 рублей и 1 за 10000 рублей. Если мы будем считать среднее, то получится, что каждый клиент принёс по 2000 рублей. Такая оценка может не совсем корректно отображать действительность. В таком случае нужно использовать медиану - для её вычисления нужно расположить числа в порядке возрастания, выбрать 2 числа из середины ряда и разделить на 2. Ну или рассчитать автоматически с помощью онлайн-калькуляторов, Excel, sql и прочих инструментов. И наша медиана в данном случае будет равна 1500. Разница в четверть, внушительно?)

Уже догадались, что в случае нормального распределения эти 3 цифры будут максимально близки друг к другу?

Итак, мы разобрали маленькую часть понятий анализа данных. В следующих постах расскажу про стандартное отклонение, корреляцию и инструменты, которые позволяют подтвердить или опровергнуть гипотезу на основе данных.

Буду рада обратной связи:)

33
3 комментария

Спасибо, освежили азы. А правило 3 сигм скоро будет? )

Ответить

Спасибо☺️ Не планировала подробно на нем останавливаться, просто рассказать, что оно есть. Думаю в следующий пост положить, вместе со стандартным отклонением.

Ответить