Чтобы смотреть на данные как детектив: небольшая подборка каналов и книг для начинающего дата-аналитика
За последние два года я не узнал ничего революционного с точки зрения техник исследования данных. Зато стал неплохим сыщиком, который обращает внимание на контекст. И по собеседованиям в нашей компании вижу, что уровень дата-аналитика и профессиональный рост связаны прежде всего с «детективными» навыками, которые скорее «софт», чем «хард».
Из-за огромного спроса на аналитиков данных растет количество курсов и программ, где обучают Python и SQL, рассказывают, как автоматизировать рутинные задачи и рисовать дашборды. Однако наша работа строится не только на технических знаниях.
Мои более опытные коллеги, когда помогают джунам, часто просят найти нестандартный подход к решению задачи, придумать необычную гипотезу, примерить роль других людей — и посмотреть на свои дашборды, скажем, глазами руководителя отдела логистики в Мурманске. Иными словами, вести себя, как детектив.
Я Слава Зборовский, Middle Data Analyst в DataArt. У меня и моих коллег нет универсального рецепта, как стать детективом данных. Но я могу поделиться подборкой для постепенного формирования нужных навыков — как будто отвечая на вопрос знакомого начинающего дата-аналитика: «Слава, какие 5–7 книг или телеграм-каналов посоветуешь?».
Сообщества и каналы
Open Data Science — одно из крупнейших и активных DS-сообществ. Чуть ли не самая широкая дверь в мир анализа данных.
В сообществе можно подсмотреть разные подходы к работе с данными, найти ответы на вопрос любой сложности. Slack сообщества работает как хороший технический форум. Если кто-то пишет: «Я не знаю, как это сделать, помогите», — один из первых ответов будет примерно таким: «А зачем это вообще делать, лучше поступить вот так, смотри...».
Reveal The Data — телеграм-канал и сайт Ромы Бунина, отвечающего за визуализацию и BI в Яндекс Go. На мой взгляд, это, в первую очередь, источник вдохновения, куда полезно заходить каждый день и рассматривать правильные дашборды. Правильные — значит, ими удобно пользоваться, и они угадывают запросы пользователя, опережают их. Благодаря насмотренности легче настроить фильтры так, чтобы у пользователя не искажалась картинка и сразу были видны слабые места в процессах.
Tableau’s viz of the Day — телеграм-канал и сайт Public Tableau, бесплатной платформы для публичного обмена визуализаций данных. Эстетическое наслаждение от необычных и красивых визуализаций на каждый день. Лично мне помогает настроиться на работу по утрам.
Чат Tableau. Если предыдущие два источника носят скорее вдохновляющий характер, в этом чате в основном — ответы на рутинные вопросы. Как правильно подобрать и настроить метрики? Как лаконично организовать источники данных? Очень полезно, если нужно, к примеру, быстро проверить оригинальную гипотезу, но не хватает знаний, как это реализовать технически.
Книги
«Статистика и котики», Владимир Савельев. Почти идеальный формат для трейни и даже джунов. Впрочем, проджект-менеджеру или разработчику тоже пригодится, если хочется понять, чем занимается коллега — аналитик данных.
Книга завлекает в мир анализа данных, объясняя невероятно простым языком и иллюстрациями из вселенной котиков и совят такие понятия, как меры центральной тенденции, статистические тесты, медианное значение и многое другое.
«Голая статистика», Чарльз Уилан + «Фрикономика», Стивен Левитт, Стивен Дабнер. Эти две книги объединяет мысль, что к данным нужно подходить с предельной осторожностью. Авторы не согласны с утверждением, что статистика — самая большая ложь. Она не лжет, просто с ней неправильно работают, ведь кроме математики, в статистике должны быть въедливость, творчество, отличное знание контекста — тогда и выводы будут правдивы.
Как в большинстве трудов американских авторов, здесь главную мысль подкрепляют десятками примеров. Многие из них однотипны (хотя и интересны), поэтому их можно пропускать.
DAMA-DMBOK: Data Management Body of Knowledge (2-е издание). Настольная книга дата-аналитиков, объясняющая процессы: как собираются данные, где хранятся, кто должен за них отвечать и т. д. Можно сказать, что DAMA-DMBOK задает каркас нашей профессии и ее уместно сравнивать с конституцией.
Недавно я присутствовал на встрече, где мой коллега, синьор, недовольный настойчиво предлагаемым решением, достал DAMA-DMBOK, нашел нужную страницу и сказал: «Так делать нельзя, потому что здесь написано, что так делать нельзя». И все согласились. В общем, даже в творческой профессии должен быть порядок.
Если хотите глубже погрузиться в Data Science, рекомендую несколько докладов на бесплатной онлайн-конференции IT NonStop (18–20 ноября 2021):
Всего в программе конференции — 50 докладов и воркшопов специалистов из Microsoft, AWS, NVIDIA, Ocado, Codete, Ciklum, Eleks, SoftServe, Toloka, Yandex, DataArt и других компаний.