Как BigData плодит ложные закономерности

При работе с BigData стоит учитывать, что какая-то часть выявляемых закономерностей являются ошибочными. Чтобы лучше находить эти недостоверные зависимости, лучше всего отталкиваться от того, какими они бывают.

Ложные корреляции

Есть такая занятная книга "Ложные корреляции". В ней указываются забавные и при этом однозначные зависимости между различными данными. Например, между потреблением моцареллы и числом докторских степеней. Или между количеством фильмов с Николасом Кейджем и числом утонувших в бассейне.

Пример ложной корреляции из книги
Пример ложной корреляции из книги

Эти совпадения - просто отражение новой реальности. Данных становится так много, что какие-то показывают наличие статистически достоверной закономерности между абсолютно независимыми событиями.

Например, нейрогенетика с шумом и помпой недавно выявила гены, отвечающие за шизофрению и гениальность, чтобы позже тихо признаться, что это было только случайное совпадение.

Когда бизнес начинает работать с BigData, данных становится всё больше, оттого чаще начинают проявляться неожиданные зависимости, по факту оказывающиеся просто случайными совпадениями. Тем проще при моделировании бизнеса ошибиться и учесть те факторы, которые на бизнес не влияют. Например, решить, что объём производства мёда в США прямо пропорционально влияет на число разводов в Южной Каролине.

Как аисты приносят детей

В Швеции есть традиция: если аист заводит у тебя на доме гнездо, за ним полагается ухаживать. Об этом шведы вели статистику 73 года подряд, пока кому-то не пришло в голову в шутку сравнить эти данные с рождаемостью.

Анализ показал, что имеется однозначная зависимость.

В Швеции выявили зависимость между рождаемостью и количеством гнёзд аистов.
В Швеции выявили зависимость между рождаемостью и количеством гнёзд аистов.

Исследователи нашли этому казусу вполне разумное обоснование. Оказалось, что на статистику по аистам и рождаемости оказывает сильнейшее влияние изменение экологической обстановки и уровня жизни населения. Шведы стали лучше жить, транспорт стал намного доступнее, потому молодые семьи активно перебирались в уютные и спокойные дома в пригородах городов, на крышах которых и появлялось всё больше и больше аистов.

Этот случай описывает второй тип ложных закономерностей: когда зависимость двух данных вызвана влиянием на них какого-то третьего.

Я не говорю, что такие закономерности следует избегать при прогнозировании, наоборот. Главное: не делать вывод, что аисты приносят детей.

Электрические сны лосося Фолл-крика

В попытках лучше понять мир люди делают очень странные исследования. Так, американские учёные положили лосося в томограф, показывали ему фотографии людей и фиксировали активность его головного и спинного мозга. Рыба не просто реагировала на фотографии, но и практически правильно оценивала эмоции людей.

Что было особенно удивительно, так как лосось был мёртвый.

Даже мёртвый лосось имеет высокий эмоциональный интеллект
Даже мёртвый лосось имеет высокий эмоциональный интеллект

Выяснилось, что на результаты исследования повлияла собственная деятельность томографа.

Случай показывает, как результаты анализа искажаются из-за погрешностей в методике, качества сбора информации или даже инструмента анализа.

Вот и получаются ложные зависимости третьего рода - вызванные ошибками в инструментарии.

Как с этим бороться? Да как и раньше. Проверять и перепроверять.

Резюмирую

В изучении BigData остерегайтесь следующих трёх типов ложных закономерностей:

  • случайные совпадения, вызванные законом больших чисел. Помните: чем значительней массивы информации, тем проще найти зависимости между потреблением моцареллы и числом докторских степеней;
  • параллельные совпадения, вызванные влиянием на два ряда третьего, неучтённого фактора. Иначе будете утверждать, что аисты приносят детей;
  • искусственные совпадения, вызванные огрехами в методологии, в источниках данных или в технологиях их сбора.

Если статья понравилась, а тема управления и финансов, менеджмента и манежмента, успешных и провальных кейсов в реальном бизнесе вам интересна, подписывайтесь на мой телеграм-канал "Тру финансы".

99
1 комментарий

Кому лениво искать книгу, посмотрите сайт «Подозрительные корреляции» Тайлера Вигена:

А вообще хорошо, что автор напомнил о золотом правиле статистики - корреляции сами по себе не подразумевают причинно-следственной связи👍🏻

1
Ответить