Как пользоваться калькулятором Эвана Миллера для расчёта выборки A/B-теста

За день с полного нуля мне нужно было досконально разобраться в работе калькулятора Эвана Миллера для расчёта выборки A/B-тестирования. Никаких толковых обучающих статей в интернете я не нашла. Поэтому чуть позже совместно с коллегой аналитиком я составила эту пошаговую инструкцию. Пользоваться калькулятором для расчёта выборки A/B-теста она научит даже тех, кто не силён в математике и теории вероятностей. О сложных терминах будем говорить простым языком.

<p>Калькулятор с его исходными данными</p>

Калькулятор с его исходными данными

Калькулятор Эвана Миллера для расчёта выборки A/B-теста подходит для учёбы, а также для экспериментов с простыми условиями. Калькулятор помогает определить, какое количество участников необходимо для проведения A/B-теста, чтобы получить статически значимый результат.

Калькулятор даёт статистически значимый результат

Статистически значимый результат — это результат, который в контексте эксперимента считается достоверным. Достоверность обуславливается тем, что статистически значимый результат получается не в вследствие случайных событий. Иными словами, если мы проведём одно и то же тестирование несколько раз и получим при этом один и тот же результат, мы найдём статистически значимый результат. Он может быть положительным — то есть подтверждающим нашу гипотезу — или отрицательным — опровергающим её.

Определить размер выборки важно

Если для эксперимента взять слишком много людей, многовероятно, мы потратим на него больше времени, денег и других ресурсов. В то время как недостаточно широкая выборка не покажет статистически значимого результата.

Вот 4 шага, как с помощью калькулятора Эвана Миллера рассчитать оптимальный размер выборки для вашего А/В-теста.

Шаг 1: вводим конверсию

Baseline conversion rate — это ваша текущая конверсия. Чтобы её рассчитать, нужно количество пользователей, которые совершили целевое действие, поделить на общее число посетителей. Например, если вы запустили email-рассылку на 800 000 человек, а прочитали её 450 000 человек, то конверсия рассылки будет 0,5625 — или 56,25%.

Ваша текущая конверсия
Ваша текущая конверсия

Шкала напротив Baseline conversion rate визуализирует входные данные — указанную вами конверсию.

Шаг 2: вводим минимальный ожидаемый результат

В ячейке Minimum Detectable Effect указываем то, какой минимальный результат от A/B-теста мы ожидаем получить. Могут быть две цели: либо повысить конверсию, либо уменьшить количество отписок — снизить churn rate.

Предположим, минимальный ожидаемый результат, который мы хотим получить, — это 4%
Предположим, минимальный ожидаемый результат, который мы хотим получить, — это 4%

Под шкалой Minimum Detectable Effect есть диапазон 52,25% — 60,25%. Он показывает, что, если результат эксперимента в него попадёт, гипотеза A/B-теста провалилась. Например, если наша цель — повысить конверсию, результат эксперимента должен быть больше или равен 60,25%. А если цель — снизить количество отписок, результат должен быть меньше или равен 52,25%.

Есть три основных способа, с помощью которых можно определить минимальный ожидаемый результат.

Анализируем конкурентов. Например, если мы знаем, что конверсия email-рассылки нашего конкурента 60,25%, в то время, как у нас — 56,25%, за минимальный ожидаемый результат можно принять 4% — такого прироста достаточно, чтобы сравняться с конкурентом.

Учитываем запросы бизнеса. Представьте, что сейчас unit-экономика нашей рассылки не сходится — расходы на привлечение клиентов через email больше, чем прибыль от этих клиентов. Мы проводим анализ и устанавливаем, что повышения конверсии на 2% достаточно, чтобы рассылка перестала быть убыточной. 2% — это минимальный ожидаемый результат.

Сверяемся с историческими данными. Предположим, мы хотим снизить churn rate — количество пользователей, которое отписывается от email-рассылки. Если в прошлом мы уже проводили A/B-тест с похожей гипотезой и она понизила отвалы на 3%, то и сейчас за минимальный ожидаемый результат можно принять 3%.

Шаг 3: определяем, в каких значениях рассчитывать

Подсчитать размер выборки можно либо в абсолютных (Absolute), либо в относительных значениях (Relative).

Выбор расчёта повлияет на размер выборки
Выбор расчёта повлияет на размер выборки

По сути расчёт в абсолютных и относительных значениях ничем не отличается — просто это разное представление одной и той же информации, входных данных.

У абсолютных и относительных значениях разный масштаб расчёта. В абсолютных значениях мы оперируем большими числами, а в относительных — маленькими. Это всё равно что в первом случае мы работаем в 1000, а во втором — в 0,001.

<p>Размер выборки при расчёте в абсолютных значениях</p>

Размер выборки при расчёте в абсолютных значениях

Сравним размер серых полос и соответствующий им диапазон чисел в абсолютных и относительных значениях. В абсолютных значениях серая полоска длиннее, чем в относительных, потому что 4% в абсолютных — это большое число, большой минимальный ожидаемый эффект. В относительных значениях серая полоска, а также соответствующий ей диапазон чисел, меньше, потому что 4% в относительных — это маленькое число, маленький минимальный ожидаемый эффект.

<p>Размер выборки при расчёте в относительных значениях</p>

Размер выборки при расчёте в относительных значениях

Выбор между абсолютными и относительными значениями зависит от того, как вам удобнее считать. Поскольку в абсолютных числа получаются крупнее, работать с ними легче — большинство расчёт выборки производит в абсолютных значениях.

Шаг 4: повышаем достоверность подсчитанной выборки

Калькулятор рассчитал размер выборки. Чтобы повысить достоверность того, что с заданным количеством участников мы получим статистически значимый результат, можно настроить значения статистической силы (Statistical power 1−β) и уровня значимости (Significance level α). Они повлияют на размер выборки.

<p>По умолчанию в калькуляторе стоят значения 80% и 5%</p>

По умолчанию в калькуляторе стоят значения 80% и 5%

Statistical power 1−β отвечает за вероятность того, что, если эффект от гипотезы A/B-теста действительно есть, мы его обнаружим. Чем выше значение ползунка, тем выше шанс того, что мы заметим разницу между вариантами А и В, если она есть.

<p>Статистическую силу повысили до 95%, а уровень значимости оставили 5% — вот так изменился размер выборки</p>

Статистическую силу повысили до 95%, а уровень значимости оставили 5% — вот так изменился размер выборки

Significance level α отвечает за вероятность того, что разница между вариантами А и В обусловлена случайностью. Чем ниже значение ползунка, тем ниже шанс того, что эффект от A/B-теста — это случайность.

Статистическую силу оставили 80%, а уровень значимости снизили до 1% — вот так изменился размер выборки
Статистическую силу оставили 80%, а уровень значимости снизили до 1% — вот так изменился размер выборки

Не обязательно доводить ползунки до максимальных показателей. По умолчанию в калькуляторе стоят значения 80% и 5% — в основном их уже достаточно для того, чтобы получить размер выборки, который даст статистически значимый результат.

Вне контекста калькулятора: нюанс во внедрении результата A/B-теста

Предположим, мы провели A/B-тестирование с целью снизить churn rate. За минимальный ожидаемый результат мы взяли 5%, а гипотеза эксперимента уменьшила churn rate лишь на 4,8%.

По факту тест провалился, оставлять вариант B честный аналитик не будет. Однако на практике случается так: если продакт-менеджер видит, что результат A/B-теста не сильно отклоняется от минимального ожидаемого, он соглашается с работоспособностью гипотезы и внедряет её в свой бизнес.

Вот такая получилась инструкция. Если что-то было непонятно или появились вопросы, пишите в комментариях.

44
Начать дискуссию