Парадокс Симпсона в АБ-тестах
Как-то я проходил собес и мне задали вопрос:
- Доводилось ли тебе иметь дело с парадоксом Симпсона?
Я немного подумал и вспомнил пример из теста в моей практике.
О чём там был тест уже не вспомню, но это и не так важно. В этом тесте мы получили хорошие результаты и тестовый вариант выиграл по ключевой метрике.
Всё бы хорошо, но заказчик решил посмотреть его в разрезе платформ. Проблема была в том, что аудитории платформ (iOS vs Android) у нас были неравномерные, одной группы было сильно меньше.
Мы сгруппировали юзеров по платформам и пересчитали тест для каждой в отдельности. В обоих случаях тестовый вариант не оправдался.
Этот явление и есть парадокс Симпсона.
По смыслу он немного похож на «Эффект чирлидерш» от Барни Стинсона из HIMYM (if you know — you know).
Я не очень часто с ним сталкивался, во многом потому, что сегментация по итогам теста не самое популярное развлечение.
Как его обойти?
🧐 Есть такая штука теорема “Принципа уверенности”, которая утверждает, что, если действие увеличивает вероятность события в каждой группе в отдельности, оно также увеличивает вероятность события во всей популяции.
В соответствии с этой теоремой, я вывел для себя два правила, которых стараюсь придерживаться:
✅ Не сегментировать результаты теста. Этот вариант подходит чаще всего, когда сегментация не несет существенного значения для анализа.
✅ Сегментировать заранее. Если всё же сегментация нужна, то стоит убедиться что группы будут сбалансированы. В идеале равные размеры выборок, но это скорее пожелание, чем правило. Другое дело — размеры выборок минимального сегмента. Если они слишком малы (например, у нас почти нет Android-юзеров) , мы можем потерять в стат. мощности.
В таких ситуациях лучше лишний раз подумать над использованием первого правила и не сегментировать вообще.
Еще больше про аналитику и статистику коротко и по делу можно почитать в моем ТГ-канале. Вэлкам)