Детектив данных: десять правил для понимания статистики

Ключевые идеи новой книги Тима Харфорда «Детектив данных» от команды MakeRight.ru. Книга рассказывает о правилах работы со статистической информацией, о том, как находить факты, распознавать ложь и полуправду в мире больших данных, как развить критическое мышление.

timharford.com
timharford.com

Тим Харфорд — экономист и журналист, обладатель нескольких наград в области журналистики. Автор международного бестселлера «Экономист под прикрытием».

Книгу рекомендуют: популяризатор науки, писатель и автор бестселлера «Краткая история почти всего на свете» Билл Брайсон; журналист и автор бестселлеров Малкольм Гладуэлл; актер и писатель Стивен Фрай; специалист по большим данным и автор бестселлера «Оружие математического поражения» Кэти О’Нил. Книга стала бестселлером № 1 в разделе Amazon «Статистика и экономика».

Почему важно понимать статистику

У статистики дурная слава. Кажется, с ее помощью можно доказать что угодно, даже то, что аисты приносят детей. Так, в Европе существует удивительно четкая взаимосвязь — в странах, где популяция аистов больше, рождается и больше детей, и наоборот. Однако фокус прост — в крупных странах больше аистов и больше младенцев, а в маленьких — мало аистов и мало младенцев. Закономерность не означает причинно-следственной связи.

Особую роль в несерьезном и скептическом отношении широких масс к статистике сыграла книга Дарелла Хаффа «Как лгать при помощи статистики». В книге, которая до сих пор пользуется огромной популярностью, Хафф описал несколько распространенных способов манипулирования с цифрами, чем только усилил предвзятое отношение к статистической информации и статистическим методам.

Однако без статистики нам тоже не обойтись. О ее важности напомнила пандемия коронавируса, когда возникла острая нехватка точной, достоверной и своевременной информации о том, как распространяется вирус и как снизить вред, наносимый им. Возникло множество споров о том, как правильно реагировать, нужно ли носить маски, ограничивать ли передвижение тех, кто не входит в группу риска, — данных для принятия решений катастрофически не хватало.

Независимая и бесстрастная статистика — большая ценность для общества

Очень важно отстаивать независимость статистических агентств от политической повестки дня. В 1937 году Сталин запретил публиковать результаты переписи населения Советского Союза, так как они оказались на несколько миллионов человек меньше ожидавшихся. Выводы переписи были названы «вредительскими», а начальник бюро переписи населения Олимпий Аристархович Квиткин и несколько его коллег были расстреляны.

К сожалению, давление на статистические службы и попытки запретить им озвучивать важную информацию не остались в прошлом. В Индии в 2019 году правительство Нарендры Моди перестало публиковать данные о безработице. Вероятно, это связано с тем, что статистические данные могли показать, что премьер-министр не выполнил своих обещаний о создании большого количества рабочих мест в стране. В Танзании с 2018 году критика официальной статистики классифицируется как уголовное преступление, таким образом, ошибки не могут быть исправлены, а качество данных снижается.

Чтобы статистика работала, она должна оставаться беспристрастной, органы, ее публикующие, не должны зависеть от желаний политиков или подстраиваться под повестку дня.

Цифры должны быть максимально приближены к реальному положению дел, а не к тому, что хочется видеть политикам.

Статистика не лишена недостатков, мы не можем корректно измерить многие важные для нас вещи, но если мы хотим понять ситуацию, в которой находимся, без статистики, которой можно доверять, нам не обойтись.

Обращайте внимание на то, какие чувства вызывает у вас информация, и не позволяйте им обманывать себя

«Ах, обмануть меня нетрудно! Я сам обманываться рад» — писал поэт, но эти строки справедливы для всех нас. Поэтому обращайте внимание на те чувства, которые вызывает в вас та или иная информация, — они могут вас обмануть.

Когда мы сталкиваемся с какими-то данными, которые не вызывают в нас эмоциональной реакции, мы можем сразу проанализировать их, задать уточняющие вопросы. Но когда в дело вмешиваются эмоции, все становится сложнее. Мы ищем способы подорвать утверждения, которые нам не нравятся, но в то же время не предпринимаем аналогичных действий в отношении тех утверждений, которые нам нравятся.

Чтобы не попасть в эту ловушку, научитесь сначала замечать свои эмоции: возмущение, отрицание, воодушевление.

Затем остановитесь и задумайтесь. Не обязательно отказываться от эмоций, но нужно учиться замечать, когда ваши мысли следуют за вашими чувствами и пытаются подкрепить их. Вырабатывайте привычку делать паузу перед суждением. Часто только этого уже достаточно, чтобы не обманывать самих себя.

За красотой и наглядностью может скрываться обман

Нас легко могут обмануть не только собственные чувства, но и впечатляющие иллюстрации и графики, которые часто не очень корректно отражают существующее положение вещей. Зрительные образы, в отличие от сухих цифр и фактов, обладают особой силой, они воздействуют на наши эмоции. Как и со всеми достижениями цивилизации, их можно использовать как во благо, так и во вред. Качественная инфографика может заменить тысячи слов, обратить внимание на то, чему мы раньше не придавали значения.

Однако, к сожалению, существует много обратных примеров, когда инфографика является либо неинформативной, либо даже вводящей в заблуждение и манипулирующей, тем более что в современных условиях инструменты для создания профессиональной инфографики доступны любому человеку с компьютером.

При работе с инфографикой используйте следующие правила:

  • Помните, что главное — данные, а не красивая картинка. Не позволяйте красивой упаковке отвлекать вас от содержания.
  • Замечайте собственную эмоциональную реакцию на график. Сделайте паузу и оцените, какие чувства у вас вызывает изображение.
  • Убедитесь, что вы хорошо понимаете, что отражает визуализация, что в ней измеряется, какой аргумент приводится.
  • Помните, что инфографика — это инструмент убеждения, визуальный аргумент. Спрашивайте себя, кто и в чем пытается вас убедить с ее помощью.

Обогащайте собственный опыт статистической информацией

Чему верить — статистике или личному опыту? Ни то, ни другое нельзя сбрасывать со счетов. Нужна мудрость, чтобы понять, в каких случаях использовать статистику, а в каких — полагаться на личный опыт.

Однако это не касается закономерностей, о которых личный опыт ничего не скажет. Ваша курящая бабушка может прожить очень долго, а единственный известный вам человек, который умер от рака легких, никогда не курил. Но ваш личный опыт не может служить доказательством отсутствия вреда курения — у вас нет данных. Ваша бабушка могла бы прожить еще дольше, если бы не курила, а знакомый мог умереть раньше, если бы курил.

Полезно изучать случаи, когда статистика и личный опыт противоречат друг другу, чтобы выявить причины, почему на личный опыт не стоит полагаться.

Так, благодаря статистической перспективе известно, что вакцинация против кори, паротита и краснухи не увеличивает риск аутизма, однако довольно большое количество людей убеждены в обратном, так как слышали истории о том, что у детей появились признаки аутизма после прививок.

В то же время есть много случаев, когда нам стоит доверять своему личному опыту и здравому смыслу больше, чем статистическим данным.

Автор на собственном опыте убедился в важности дополнения статистической перспективы личным опытом во время своего путешествия в Китай в 2018 году. Статистика говорит о том, что с 1990-х реальный доход на душу населения в Китае вырос в 10 раз, значительно сократилась бедность, за несколько лет Китай потребил больше цемента, чем США за весь двадцатый век. Можно поражаться достижениям этой страны. Но когда автор оказался с семьей в Гуандуне, южной провинции Китая, его глазам предстала довольно депрессивная картина того, как этот рост выглядит в реальности. Он видел огромные одинаковые монолитные многоквартирные дома, бесконечные бетонные конструкции, которые вызывали гнетущее впечатление, ощущение тревоги и опасности, чуждой человеку среды. В то же время автор понимал, что его личный опыт тоже ограничен и не дает всей картины.

И у личного опыта, и у статистики есть как сильные, так и слабые стороны. Важно находить между ними баланс и извлекать уроки из обоих.

Задавайте вопрос о том, что именно подсчитывается

Первый шаг к пониманию любого статистического утверждения — спросить себя, что на самом деле означает это утверждение. Это кажется очевидным, но на практике оказывается, что не все так просто. Если мы не знаем, что именно считаем, ни анализ корректности выборки, ни анализ цифр ничего не дадут. Непонимание того, что именно подсчитывается, автор называет проблемой преждевременного подсчета.

Абстрактные категории и политические концепции непохожи на килограммы яблок, измерить их гораздо сложнее. Если мы не понимаем, что именно мы измеряем, то нет смысла смотреть на цифры, потому что мы гарантированно себя обманываем. Поэтому всегда задавайтесь вопросом о том, что именно подсчитывается и что стоит за цифрами.

Уравновешивайте срочную информацию «медленной»

Срочные новости в режиме онлайн не дают осмыслить информацию, поэтому, как это ни странно, гораздо полезнее могут быть аналитические передачи или дайджесты новостей за какой-то продолжительный период времени. Имеет смысл уравновешивать срочные новости более «медленными», осознанно подходить к потреблению информации. Лишь очень маленький процент новостей требует срочного внимания. Если вы приучите себя выявлять долгосрочные тенденции и искать более медленную информацию, чем ту, что подают СМИ, вы сможете замечать вещи, которые ускользают от большинства и увидеть более ясную картину. Старайтесь не просто реагировать на события, а понимать тенденции, стоящие за ними.

Если вы заглянете на сайт типичного СМИ, то вам может показаться, что мир погружается в пропасть: экономические кризисы, конфликты, убийства, насилие.

Но представьте, насколько иным был бы тон повествования в газете, которая выходит раз в сто лет. Возможно, в ней было бы написано о том, как технологии изменили жизнь, что теперь большинство людей не бедные и получили доступ к жизненно важным ресурсам, что в восемь раз снизилась детская смертность, что удалось избежать ядерной войны.

В то же время в газете были бы отражены и глобальные проблемы с долгосрочным влиянием на жизнь человека, о которых мало кто задумывается в суете дней: загрязнение окружающей среды, вырубка лесов и осушение рек, насущная необходимость в новых технологиях, которые помогут сохранить окружающую среду, наследие, которое мы оставим будущим поколениям.

В СМИ можно найти много ценной информации, но мало какие из них дают аудитории нужный контекст для понимания общей тенденции. Чтобы видеть перспективу, дополняйте срочную информацию «медленной».

Отбирая и анализируя данные, обращайте внимание не только на то, что в них присутствует, но и на то, что может отсутствовать

Одна из основных проблем статистики связана не со статистикой как таковой, а с человеческой психологией, с нашими решениями и предположениями о том, что нужно измерять, подсчитывать и анализировать, а что — оставлять за рамками подсчета, измерения и анализа.

Большое количество данных — это далеко не все, что нужно, чтобы сделать правильные выводы, важна корректная выборка.

Кажется, что новые технологии могут решить проблемы с выборкам, но на практике оказывается, что часто они лишь усиливают предвзятость: если алгоритм обучается на предвзятых данных, он будет приходить к предвзятым выводам. У технологических компаний действительно много данных, но эти данные часто лишь отражают лишь незначительный параметр или предпочтения лишь части людей. Поэтому всегда важно спрашивать, чего может не хватать в данных, что упускается из виду.

Чтобы развиваться, алгоритмам необходима прозрачность

Автор советует скептически относиться как к шумихе, так и к нагнетанию ситуации, связанной с широким распространением алгоритмов и сбором больших данных. Не стоит принимать на веру слова о том, что алгоритмы работают лучше, чем люди, но и, указывая на недостатки и предвзятости алгоритмов, не стоит забывать, что и люди тоже далеко не объективны и нередко ошибаются. Для каждой конкретной ситуации стоит задавать вопросы о том, как принимаются лучшие решения — при помощи алгоритмов или без них.

Как и алхимики прошлого, современные технологические компании, такие как Google, Amazon, Facebook, держат в тайне свои алгоритмы как секрет создания золота, с которым ни с кем нельзя делиться.

Однако, как и в случае с алхимией, секреты тормозят прогресс и приводят к потере времени и упущенным возможностям для всего общества.

Автор считает, что когда от алгоритмов зависят решения, существенно влияющие на жизнь людей, их работу необходимо подвергать проверке, даже если технологические компании пытаются сделать ее тайной.

Культивируйте непредвзятое мышление

Признать свою ошибку — не самое простое дело, особенно если она была совершена публично. Если вы заявили о своих намерениях перед широкой аудиторией, то вам гораздо сложнее будет отказаться от них и признать ошибочными. Но упорствование в своих заблуждениях, нежелание принимать во внимание новую информацию гораздо опаснее. Слишком часто люди совершают ошибки не потому, что у них нет данных, а потому, что они отказываются замечать эти данные.

***

Тим Харфорд видит проблему в том, что статистика воспринимается многими как набор хитроумных фокусов и способов манипулирования с информацией. Да, важно понимать, как можно манипулировать цифрами, но без достоверных данных мы не сможем принимать верные решения ни на индивидуальном уровне, ни на общественном. Без статистики мы не сможем ясно мыслить и понимать происходящее. Автор пишет, что хотя его и беспокоит мир, в котором многие люди поверят во что угодно, но гораздо больше его беспокоит мир, в котором люди не верят ничему, кроме своих предубеждений. Сомнение — важная часть научного мышления, но для того, чтобы хоть что-то понять в происходящем в мире, необходима статистика.

Он выделяет 10 правил для понимания статистической информации, которые действуют как на личном, так и на общественном уровне.

Первое. Научитесь останавливаться и замечать свою эмоциональную реакцию на новую информацию, а не принимать или отвергать ее из-за того, что она заставляет нас чувствовать.

Второе. Дополняйте личный опыт статистической информацией.

Третье. Спрашивайте себя, понимаете ли вы, что на самом деле описывает статистическая информация.

Четвертое. Помещайте информацию в нужный контекст.

Пятое. Спрашивайте, не являются ли представляемые данные лишь частью чего-то большего или случайностью на фоне иной закономерности.

Шестое. Обнаруживайте «темные данные» — то, что могло остаться незамеченным.

Седьмое. Устанавливайте требования по отношению к алгоритмам, работа которых существенно влияет на судьбы людей.

Восьмое. Помните о ценности независимой и бесстрастной статистики.

Девятое. Не обманывайтесь красотой инфографики.

Десятое. Оставайтесь непредвзятыми.

Все эти десять правил объединяет главное — любопытство. Именно оно помогает нам докапываться до сути вещей, искать нужный контекст, сопротивляться давлению со стороны, не обманываться собственными эмоциями и отказываться от ошибочных взглядов.

1010
3 комментария

Статистически по настоящему достоверны две общественные тенденции:
- элита должна быть и обычно является более квалифицированной, чем управляемые ею;
- управляемые, в свою очередь, не верят в этот факт, не доверяют элите, её инструментам/законам/требованиям.

Поэтому любые советы: вникать, анализировать, синтезировать, делать выводы - понятны исключительно тем, кто в этих советах не нуждается.

Ответить

Идеальный вывод с точки зрения элиты - элита умнее, элита лучше понимает, а вы все остальные сидите и не рыпайтесь.

2
Ответить