Сколько ресурсов понадобится, чтобы протестировать медиаплан
Когда речь заходит о продвижении новых проектов, по которым мало или совсем нет статистики, то этот вопрос появляется гораздо чаще других, даже если не озвучивается вслух: "Сколько нужно времени и денег, чтобы убедиться в адекватности цифр, указанных в медиаплане?". Об этом сейчас и расскажет Илья Назаров, менеджер отдела интернет-продвижения Digital Lab.
Если говорить о вероятностях, то нормальной (обычной, стандартной, чаще всего используемой) вероятностью в мире статистики считается 95%. Она означает, что вы ошибетесь не чаще 1 раза из 20. Качественные метрики, такие как конверсии (например, CTR или конверсия в лид) — это такие же вероятности, которые обладают не 100% точностью, т.е. точны с какой-то собственной вероятностью. Да, вероятность вероятности — это распространенная тема в теории вероятности, в том числе из-за которой она кажется невероятно сложной.
Постараюсь доказать, что вещи проще, чем кажутся. Совсем без формул не обойтись, но правильные логические рассуждения позволят их сильно упростить и сделают очень доступными для понимания.
Что именно будем считать?
Решение задачи наполовину скрывается в правильной постановке. Предположим, мы прогнозируем конверсию в лид на уровне 3,5%. Сколько нужно получить кликов, чтобы подтвердить или опровергнуть этот прогноз с точностью 95%? Т.е. через сколько переходов по рекламе мы можем быть уверены, что не сильно ошиблись в своем прогнозе?
Самые нетерпеливые могут прямо сейчас заглянуть в конец и удивиться простоте решения, а те, кто не поверит, вернутся сюда и продолжат читать дальше.
Формула Бернулли
В случае конверсии мы говорим о событии, вероятность которого не зависит одно от другого. Т.е. появление следующей конверсии никак не зависит от предыдущего результата. Как в подбрасывании монетки появление подряд пяти орлов совсем не увеличивает вероятность появления решки. Такие события считаются независимыми.
В ходе произведенного эксперимента (посетитель зашёл на сайт) может произойти только одно из двух событий: либо он оставит свои контактные данные, либо нет, третьего не дано. Мы обладаем полной группой событий, описывающей все возможные исходы: A или Ā ("не А"). Таким образом, зная вероятность нужного нам события P (А) можно посчитать вероятность противоположного события: P(Ā) = 1 - P(A). Считаем, что эти вероятности постоянны.
Вероятность того, что событие А случится k раз после n попыток рассчитывается по формуле Бернулли:
где:
- Pnk — это рассчитываемая нами вероятность нашей правоты;
- p = P(А) — это вероятность наступления события (проверяемая нами конверсия);
- q = P(Ā) = 1 - P(A) = 1 - p - это вероятность “ненаступления” нужного нам события;
- Cnk — это количество всех возможных сочетаний n по k.
А модель, с которой мы имеем дело называется "схемой Бернулли".
Предлагаю избавиться от q (вероятности того, что нужное событие не наступит):
На всякий случай напомню, что восклицательным знаком после числа обозначается его факториал, т.е. произведение всех последовательных чисел начиная от 1 до самого числа. К слову, факториал 0! = 1. В таблицах Google есть специальная формула, рассчитывающая факториал, поэтому вручную ничего умножать не придется.
Упрощенная модель для знакомства
Сделайте копию таблицы Google, чтобы вы могли видеть формулы и исправлять значения под себя.
У факториала есть неприятное свойство: функция очень быстро увеличивается. Например, всего при 100 кликах 100! = 9,33262*10157, поэтому для начальной простоты и наглядности представим, что коэффициент конверсии p = 35% = 0,35, а количество кликов n = 10. Рассчитаем по предложенной выше формуле вероятности того, что мы получим 0, 1, 2, 3, …, 9, 10 конверсий при этих условиях. Понадобятся стандартные формулы FACT (вычисление факториала) и POWER (возведение в степень):
Поскольку мы задали конверсию 35%, самые высокие вероятности получились напротив чисел 3 и 4, т. е. после 10 кликов мы, скорее всего, получим 3 или 4 конверсии, а вероятности получения другого количества убывают, чем сильнее мы от этих чисел удаляемся. Вот график для ценителей:
Разумеется, это не что иное, как нормальное распределение Гаусса-Лапласа:
Приближаем модель к реальности
Кстати, Лаплас был сильно озадачен сложностью вычисления значений в формуле Бернулли при больших значениях n (напоминаю, что факториал 100 примерно равен 10158). В начале XIX века компьютеров не было, поэтому подобные расчеты требовали неимоверных усилий. Лучшие умы поучаствовали в создании теоремы Муавра-Лапласа, которая при n > 100 (более 100 кликов) и произведении p*n > 20 (клики, умноженные на конверсию) позволяет обходиться без факториалов и считать вероятность по упрощенной формуле:
Для этой формулы составили специальные таблицы значений, помогающие быстро находить нужные, но нам не понадобятся ни они, ни эта формула. Дело в том, что в современных электронных таблицах есть встроенные функции, позволяющие находить биноминальные распределения, чем и является нормальное распределение. В таблицах Google воспользуемся функцией BINOMDIST:
Как она работает:
- Первый аргумент — количество успешных событий k.
- Общее количество попыток — n.
- Вероятность успеха — p.
- Для независимых событий нужно использовать false (наши события не зависят одно от другого).
Как видите, рассчитанные по формуле вероятности целиком совпадают с теми, которые до этого рассчитаны по формуле с факториалами. В новой функции факториалов нет, поэтому количество n можем увеличивать до необходимого, но не спешите…
Упрощение без потери точности
Если вы просуммируете все вероятности при любых k, то их сумма всегда будет равна 1 (скриншот не прилагаю, чтобы вы сами в этом убедились). На самом деле это можно понять логически, потому что кроме перечисленных вариантов других быть не может, мы в любом случае попадем в один из прогнозов: без вариантов получим от 0 до 10 конверсий после 10 кликов). А максимальная вероятность равна единице, что соответствует 100%.
Для проверки гипотезы, сформулированной в начале, нам нужно знать с какой вероятностью мы получим хотя бы одну конверсию. Для этого можно сложить вероятности для всех k, отличающихся от 0 (при k = 0 мы не получим ни одной конверсии). Но на самом деле проще не сложить n-1 вероятностей при k > 0, а посчитать одну единственную вероятность неудачи (при k=0) и вычесть её из 1:
Стало гораздо проще считать, но можно упростить сильнее. Если вернуться к формуле Бернулли, и подставить k = 0 прямо в неё, то получится:
Нам вообще не нужны факториалы, теорема Муавра-Лапласа и даже биноминальное распределение, главное не забыть вычесть результат из 1:
Теперь легко вычислить n — количество кликов, по достижении которых мы подтвердим или опровергнем нашу теорию.
Минутка школьной алгебры. Действие, обратное возведению в степень - логарифмирование:
Как посчитать максимально необходимое количество событий
Если вы ещё не сделали, рекомендую скопировать таблицу Google и самостоятельно убедиться в правильности расчетов.
В самом начале мы решили, что нас устроит ошибка в 1 случае из 20, соответствующая Pnk=0,95 (95%).
Конверсия, для которой мы рассчитываем необходимое кол-во кликов p = 0,035 (3,5%).
Подставляем все в формулу:
Это число нужно округлить в большую сторону, потому что дробного количества кликов не бывает. Таким образом, точность станет чуть больше 95%.
Ответ таков:
- Нам нужно дождаться как минимум 85 кликов для того, чтобы утверждать с 95% точностью, что мы ошиблись с конверсией, а фактическая конверсия оказывается ниже прогноза.
- Если мы получим хотя бы одну конверсию раньше, то первоначальный прогноз был слишком пессимистичным, а это же замечательно!
Теперь, имея стоимость клика, вы сможете рассчитать минимально необходимый бюджет, при котором ваша гипотеза о конверсии может быть подтверждена или опровергнута.
Задавайте вопросы и пишите предложения в комментариях.