Вжух-вжух, и ты в ловушке🪄

Привет, на связи data dreamen! После небольшого перерыва пришел к вам с рассказом о том, в какие ловушки можно попасть, если обращаться с аналитикой неаккуратно.

1) Манипулятивные метрики

Однажды американский банк Wells Fargo принял решение всерьез взяться за развитие перекрестных продаж и установил для сотрудников план продаж дополнительных продуктов к основным потребностям клиента (например открытие кредитной карты при создании депозитного счета). Однако топ-менеджмент не предусмотрел изобретательность своих сотрудников в погоне за премией.

Работники банка стали открывать продукты, которыми никто никогда не пользовался, часто даже без ведома клиентов. Расходы на обслуживание продуктов росли, а доходы с них - нет. Через какое-то время все вскрылось и многих сотрудников уволили за манипуляции. Но всего этого могло и не случиться, если бы целевая метрика шла в паре в контр-метрикой или цель лежала глубже по воронке.

2) Смешанные причина, следствие и корреляция

В начале текущего года по инфополю пронеслось несколько новостей о колоссальном росте в 2024 году суммы начисленных штрафов и пеней по ним. Вполне ожидаемо, что многие СМИ связали это с ростом числа нарушителей. Ведь логично, что, раз растут штрафы, то во всем виноват рост числа недобросовестных граждан?

Ну… не совсем. За последние два года ключевая ставка выросла почти в три раза, а вместе с ней выросли и проценты по пеням, а также суммы многих штрафов, зависимых от ключевой ставки. Итого - не всегда сонаправленное движение двух показателей говорит о наличии между ними связей.

3) Парадокс Симпсона

В 70-е он привел к большой шумихе вокруг университета Беркли. При анализе конверсий в поступление выяснилось, что мужчины принимались на обучение значительно чаще женщин (из подавших документы мужчин поступали 44% против 35% подавших документы женщин). На лицо дискриминация по половому признаку?

Снова нет. Детальный разбор по факультетам показал: женщины чаще подавали заявки на гиперконкурентные направления с низким процентом зачисления, тогда как мужчины чаще подавались на более крупные и менее конкурентные направления. Это и создало парадокс Симпсона: агрегированные данные исказили реальную картину. Абсолюты же поступивших были приблизительно сопоставимы, как и конверсии в группах мужчин и женщин по отдельным факультетам.

Мораль сей басни - если вы проводите декомпозицию какой-либо метрики, важно учитывать не только сами метрики компонентов, но и их веса.

Пишите про аналитические ловушки, в которые попадали сами. А если интересна аналитика, подписывайтесь на tg data dreamen

2
Начать дискуссию