Как пользоваться калькулятором Эвана Миллера для расчёта выборки A/B-теста
За день с полного нуля мне нужно было досконально разобраться в работе калькулятора Эвана Миллера для расчёта выборки A/B-тестирования. Никаких толковых обучающих статей в интернете я не нашла. Поэтому чуть позже совместно с коллегой аналитиком я составила эту пошаговую инструкцию. Пользоваться калькулятором для расчёта выборки A/B-теста она научит даже тех, кто не силён в математике и теории вероятностей. О сложных терминах будем говорить простым языком.
Калькулятор с его исходными данными
Калькулятор Эвана Миллера для расчёта выборки A/B-теста подходит для учёбы, а также для экспериментов с простыми условиями. Калькулятор помогает определить, какое количество участников необходимо для проведения A/B-теста, чтобы получить статически значимый результат.
Калькулятор даёт статистически значимый результат
Статистически значимый результат — это результат, который в контексте эксперимента считается достоверным. Достоверность обуславливается тем, что статистически значимый результат получается не в вследствие случайных событий. Иными словами, если мы проведём одно и то же тестирование несколько раз и получим при этом один и тот же результат, мы найдём статистически значимый результат. Он может быть положительным — то есть подтверждающим нашу гипотезу — или отрицательным — опровергающим её.
Определить размер выборки важно
Если для эксперимента взять слишком много людей, многовероятно, мы потратим на него больше времени, денег и других ресурсов. В то время как недостаточно широкая выборка не покажет статистически значимого результата.
Вот 4 шага, как с помощью калькулятора Эвана Миллера рассчитать оптимальный размер выборки для вашего А/В-теста.
Шаг 1: вводим конверсию
Baseline conversion rate — это ваша текущая конверсия. Чтобы её рассчитать, нужно количество пользователей, которые совершили целевое действие, поделить на общее число посетителей. Например, если вы запустили email-рассылку на 800 000 человек, а прочитали её 450 000 человек, то конверсия рассылки будет 0,5625 — или 56,25%.
Шкала напротив Baseline conversion rate визуализирует входные данные — указанную вами конверсию.
Шаг 2: вводим минимальный ожидаемый результат
В ячейке Minimum Detectable Effect указываем то, какой минимальный результат от A/B-теста мы ожидаем получить. Могут быть две цели: либо повысить конверсию, либо уменьшить количество отписок — снизить churn rate.
Под шкалой Minimum Detectable Effect есть диапазон 52,25% — 60,25%. Он показывает, что, если результат эксперимента в него попадёт, гипотеза A/B-теста провалилась. Например, если наша цель — повысить конверсию, результат эксперимента должен быть больше или равен 60,25%. А если цель — снизить количество отписок, результат должен быть меньше или равен 52,25%.
Есть три основных способа, с помощью которых можно определить минимальный ожидаемый результат.
Анализируем конкурентов. Например, если мы знаем, что конверсия email-рассылки нашего конкурента 60,25%, в то время, как у нас — 56,25%, за минимальный ожидаемый результат можно принять 4% — такого прироста достаточно, чтобы сравняться с конкурентом.
Учитываем запросы бизнеса. Представьте, что сейчас unit-экономика нашей рассылки не сходится — расходы на привлечение клиентов через email больше, чем прибыль от этих клиентов. Мы проводим анализ и устанавливаем, что повышения конверсии на 2% достаточно, чтобы рассылка перестала быть убыточной. 2% — это минимальный ожидаемый результат.
Сверяемся с историческими данными. Предположим, мы хотим снизить churn rate — количество пользователей, которое отписывается от email-рассылки. Если в прошлом мы уже проводили A/B-тест с похожей гипотезой и она понизила отвалы на 3%, то и сейчас за минимальный ожидаемый результат можно принять 3%.
Шаг 3: определяем, в каких значениях рассчитывать
Подсчитать размер выборки можно либо в абсолютных (Absolute), либо в относительных значениях (Relative).
По сути расчёт в абсолютных и относительных значениях ничем не отличается — просто это разное представление одной и той же информации, входных данных.
У абсолютных и относительных значениях разный масштаб расчёта. В абсолютных значениях мы оперируем большими числами, а в относительных — маленькими. Это всё равно что в первом случае мы работаем в 1000, а во втором — в 0,001.
Размер выборки при расчёте в абсолютных значениях
Сравним размер серых полос и соответствующий им диапазон чисел в абсолютных и относительных значениях. В абсолютных значениях серая полоска длиннее, чем в относительных, потому что 4% в абсолютных — это большое число, большой минимальный ожидаемый эффект. В относительных значениях серая полоска, а также соответствующий ей диапазон чисел, меньше, потому что 4% в относительных — это маленькое число, маленький минимальный ожидаемый эффект.
Размер выборки при расчёте в относительных значениях
Выбор между абсолютными и относительными значениями зависит от того, как вам удобнее считать. Поскольку в абсолютных числа получаются крупнее, работать с ними легче — большинство расчёт выборки производит в абсолютных значениях.
Шаг 4: повышаем достоверность подсчитанной выборки
Калькулятор рассчитал размер выборки. Чтобы повысить достоверность того, что с заданным количеством участников мы получим статистически значимый результат, можно настроить значения статистической силы (Statistical power 1−β) и уровня значимости (Significance level α). Они повлияют на размер выборки.
По умолчанию в калькуляторе стоят значения 80% и 5%
Statistical power 1−β отвечает за вероятность того, что, если эффект от гипотезы A/B-теста действительно есть, мы его обнаружим. Чем выше значение ползунка, тем выше шанс того, что мы заметим разницу между вариантами А и В, если она есть.
Статистическую силу повысили до 95%, а уровень значимости оставили 5% — вот так изменился размер выборки
Significance level α отвечает за вероятность того, что разница между вариантами А и В обусловлена случайностью. Чем ниже значение ползунка, тем ниже шанс того, что эффект от A/B-теста — это случайность.
Не обязательно доводить ползунки до максимальных показателей. По умолчанию в калькуляторе стоят значения 80% и 5% — в основном их уже достаточно для того, чтобы получить размер выборки, который даст статистически значимый результат.
Вне контекста калькулятора: нюанс во внедрении результата A/B-теста
Предположим, мы провели A/B-тестирование с целью снизить churn rate. За минимальный ожидаемый результат мы взяли 5%, а гипотеза эксперимента уменьшила churn rate лишь на 4,8%.
По факту тест провалился, оставлять вариант B честный аналитик не будет. Однако на практике случается так: если продакт-менеджер видит, что результат A/B-теста не сильно отклоняется от минимального ожидаемого, он соглашается с работоспособностью гипотезы и внедряет её в свой бизнес.
Вот такая получилась инструкция. Если что-то было непонятно или появились вопросы, пишите в комментариях.