2. Закономерности, которых нет
Иллюзия кластеризации – тенденция видеть закономерности там, где их на самом деле нет. 👀
Нашему мозгу гораздо комфортнее, когда есть четкие закономерности:
🔸Не суй пальцы в розетку – убьёт.
🔸Занимайся физкультурой – будешь чувствовать себя лучше.
🔸Если блеснула молния – значит скоро будет гром.
Закономерностями мы облегчаем нагрузку на мышление, не надо каждый раз выстраивать длинные умозаключения почему будет именно так.
Но такая удобная функция может сыграть и против нас. Например, вы опросили 10 своих друзей (8 парней и 2 девушки), понравился ли им новый фильм, если он понравился всем кроме 2 девушек, то можно прийти к выводу, что:
🔸Фильм не понравится почти всем девушкам.
🔸Фильм не понравится 20% зрителей.
Иллюзия вызвана склонностью недооценивать степень изменчивости, когда у нас мало данных. Статистика может очень сильно измениться, если вы опросите 1000 человек.
В сфере фондовых рынков аналогично примеров тоже много:
🔸В среднем падение акций в кризис длится 1-2 года.
🔸В мае обычно рынки падают, а осенью растут.
🔸Цена акций Apple Inc (AAPL) растет после ежегодной презентации новых устройств.
❓Достаточно ли было финансовых кризисов и презентаций Apple для надежной статистики? За время наблюдений ничего не поменялось, данные однородны?
👉 Есть ряд цифр: «2, 4, 6», каким будет следующее число? Мы быстро находим закономерность – это арифметическая прогрессия. Но эти три числа вполне могут оказаться просто случайными, а мы уже посчитали результат на 3 позиции вперед.
Иллюзорная корреляция – явление, обнаружения тесной связи между рядами значений, в то время, когда в реальности связи нет или она гораздо слабее. Такая корреляция может быть обнаружена где угодно, а причина все та же – в нашем распоряжении недостаточно данных.
👉 В течение 15 месяцев проводилось исследование, где записывались симптомы пациентов с артритом и погодные условия. Почти все пациенты сообщили, что их боли связаны с погодными условиями, хотя реальная корреляция была равна нулю.
❗Люди соединяют события как сопутствующие друг другу – боль и плохую погоду, но мало обращают внимание на комбинации боль – хорошая погода и плохая погода без боли.
Где-то рядом существует ложная зависимость. Это тот случай, когда обнаруживается тесная зависимость вследствие совпадения или из-за наличия общего определяющего фактора. Тут данных уже достаточно.
👉 Известный пример ложной зависимости – это взаимосвязь продаж мороженного и количество утопленников. Выше продажи – больше утонувших и наоборот. Это не значит, что переменные влияют друг на друга. Запрет продаж мороженного не спасет ни одного человека. У этих рядов данных есть сторонний общий фактор – погодные условия (жара).
Посмотрите как отлично коррелируют индекс S&P500 и bitcoin.
Вывод. Нужно быть осторожным, если используете не надежные закономерности, построенные на малом количестве данных. А также выяснять причины зависимостей.