Парадокс Симпсона в АБ-тестах

Парадокс Симпсона в АБ-тестах

Как-то я проходил собес и мне задали вопрос:

- Доводилось ли тебе иметь дело с парадоксом Симпсона?

Я немного подумал и вспомнил пример из теста в моей практике.

О чём там был тест уже не вспомню, но это и не так важно. В этом тесте мы получили хорошие результаты и тестовый вариант выиграл по ключевой метрике.

Всё бы хорошо, но заказчик решил посмотреть его в разрезе платформ. Проблема была в том, что аудитории платформ (iOS vs Android) у нас были неравномерные, одной группы было сильно меньше.

Мы сгруппировали юзеров по платформам и пересчитали тест для каждой в отдельности. В обоих случаях тестовый вариант не оправдался.

Этот явление и есть парадокс Симпсона.

По смыслу он немного похож на «Эффект чирлидерш» от Барни Стинсона из HIMYM (if you know — you know).

Я не очень часто с ним сталкивался, во многом потому, что сегментация по итогам теста не самое популярное развлечение.

Как его обойти?

🧐 Есть такая штука теорема “Принципа уверенности”, которая утверждает, что, если действие увеличивает вероятность события в каждой группе в отдельности, оно также увеличивает вероятность события во всей популяции.

В соответствии с этой теоремой, я вывел для себя два правила, которых стараюсь придерживаться:

Не сегментировать результаты теста. Этот вариант подходит чаще всего, когда сегментация не несет существенного значения для анализа.

Сегментировать заранее. Если всё же сегментация нужна, то стоит убедиться что группы будут сбалансированы. В идеале равные размеры выборок, но это скорее пожелание, чем правило. Другое дело — размеры выборок минимального сегмента. Если они слишком малы (например, у нас почти нет Android-юзеров) , мы можем потерять в стат. мощности.

В таких ситуациях лучше лишний раз подумать над использованием первого правила и не сегментировать вообще.

Еще больше про аналитику и статистику коротко и по делу можно почитать в моем ТГ-канале. Вэлкам)

Начать дискуссию