5 историй с хакатонов
Всем привет! Меня зовут Юрий Кацер, я являюсь сооснователем waico.tech. Вообще, Waico начало свою историю с хакатона 2025, проходившего в “Сколково” (об этом немного в этой статье). С 2019 по 2021 год мы поучаствовали более, чем в 15 хакатонах и становились победителями или призерами как минимум в 10. Вот некоторые из наших призовых мест:
- 1 место в Хакатоне по ИИ в Санкт-Петербурге в кейсе от Минпромторга «Доступные лекарства для всех», 2021
- 3 место Evraz AI Challenge, трек: Продуйте металл через Data Science, 2021
- 1 место в хакатоне «Умные города, промышленность, ТЭК» (ENERGOMACH) конкурса Цифровой прорыв, 2021
- 1 место в кейсе “Сила Трансформатора” хакатона КРЭА (Концерн Росэнергоатом, Росатом), 2021
- 2 место в хакатоне Цифровой форсаж атомных городов, 2020
- 2 место на хакатоне Datamasters, 2020
- 3 место на VirusHack, 2020
- 3 место в хакатоне AC-VO&PPR, 2020
- 1 место во всероссийском конкурсе Цифровой прорыв на всероссийском уровне (трек - “Дефектоскопия трубопроводов” - Газпром-нефть), 2019
- 1 место во всероссийском конкурсе Цифровой прорыв в Московском регионе (трек - “Предиктивная диагностика лифтового оборудования” - ДИТ Москвы), 2019
С 2022 года мы больше фокусировались на проектах и почти перестали участвовать. Если и участвовали, то скорее пытались найти проекты и получить доступ к заказчикам. Возможно, в будущем расскажу о хакатонах, как о канале продаж услуг (спойлер: все не очень хорошо), но сейчас речь не совсем об этом. Кстати, все материалы с разных площадок, где я выступаю или пишу, с недавнего времени я начал собирать в свой тг канал, можете подписаться.
В этом посте я расскажу, с чем вам придётся столкнуться на российских хакатонах, в пяти болезненных историях. Мой опыт включает как участие до пандемии в оффлайне, так и хакатоны, проходившие во время пандемии в онлайне или сейчас - в гибридном формате. Какие проблемы поджидают вас на хакатонах? Что делать и чего ждать от хакатонов, если до этого участвовал в соревнования на кагле? Зачем вообще нужны хакатоны дата сайентисту? Эти и другие вопросы мы обязательно затронем.
Немного дисклеймеров: Сразу стоит оговориться, что мы с командой не участвовали (и пока не планируем) в хакатонах mhl (major league hacking), а также в трёх крупных российских хакатонах: Hack.Moscow, Moscow City Hack и Лидеры цифровой трансформации, так как не видели там для себя интересных задач. Возможно эти хакатоны не имеют недостатков, описанных в статье, но ничего не могу про это сказать. Что же нам интересно, если даже входивший в mlh Хак Москоу не выставил подходящие задачи? Интересны нам в первую очередь задачи промышленной диагностики оборудования, где необходимо анализировать данные с датчиков и создавать системы предиктивной аналитики или рекомендательные системы для технического/управленческого персонала. Мы редко решаем что-то не по этой теме, но даже тогда это что-то близкое к технической области.
История первая: Ну вот же данные…
Суть проблемы: Несоответствие задачи/описание данных на бумаге и фактических.
Одна из самых тяжелых проблем: если организаторы забывают, что участникам нужны не только описания данных, но и сами значения, то и разговаривать с ними очень сложно, так как очевидно, что люди просто не понимают, что такое анализ данных, для них это что-то похожее на бизнес-аналитику и консалтинг. Помните, что где-то плачет дата сайентист, когда вы выставляете такую задачу. Конкретно нам в такой ситуации сказали примерно следующее: “Ну, мы же вам данные дали, все признаки там есть, все подробно описано. Что ещё нужно, чтобы обучить модели для обнаружения аномалий в *где бы то ни было*?”. При этом данные, которые нам дали:
В итоге оказалось, что одной из фишек в тот момент стало собрать свои данные (хотя изначально этого не предполагалось). Мы заказали такси, съездили домой за ардуинками с датчиками и принялись не только делать приложение с блэкджеком аналитикой и дашбордами, но еще и разрабатывать собственную систему сбора данных на коленке. Пара сильных команд снялись в момент всеобщего осознания, что в первый день данные нам не дадут. Напомню, что хакатон идёт всего 2 дня.
Вывод: можно ошибки организаторов трансформировать в преимущества собственного решения, но главное – беречь свое душевное равновесие и иногда сниматься с хакатонов.
ПС: в итоге хоть какие-то (синтетические) данные о поломках оборудования нам дали на второй день, но первые два места заняли команды, сами собравшие системы сбора данных на коленке и собравшие/нагенерившие данные для анализа.
История вторая: А разговоров-то было…
Суть проблемы: Под такой заголовок может подойти много разных историй, но я расскажу историю о невыполненных обещаний по продолжению сотрудничества после хакатона.
Наверняка многие читали о том, что возможны различные варианты сотрудничества с организаторами/кейсожержателями - от трудоустройства до инвестиций или покупки решения. Кажется очень привлекательным сделать за пару дней какой-то mvp, а с тобой уже начинают хотеть сотрудничать, даже деньги, помимо призовых, обещают – так и до стартапа недалеко. На самом же деле, практически ни одна компания не готова вкладывать деньги в двухдневный продукт, но какой смысл об этом заявлять? Во-первых, от желания действительно посотрудничать, чтобы из этого получилась красивая история инвестиции в стартап, который вырастит в самостоятельную компанию и помимо решения конкретной боли заказчика, ещё и станет новым бизнесом компании, окупив вложения даже в организацию хакатона.
Зачем компании нужен хакатон можно почитать здесь. На деле, как бы мы не старались (а мы старались практически после каждого призового места), в лучшем случае дело доходило до пары встреч, после которых было очевидно, что можно готовиться к следующему хакатону, где точно повезёт.
История третья: необъективное сравнение
Суть проблемы: Здесь я имею в виду необъективное сравнение решений разных треков/кейсов.
Довольно часто проходят хакатоны, где есть единый призовой фонд для победителей, а треков или кейсов решается на хакатоне несколько. То есть победители выбираются вне зависимости от кейса в общем сравнении. Хотя как раз обычно побеждают не те команды, кто лучше решил свой кейс, а те, чей кейс просто более интересный и запоминающиеся. Как можно сравнивать кейс про разработку системы мониторинга состояния станка на заводе и систему распознавания лиц или робототехнику или систему для управления дронами. Наверное, при хорошо сформулированных критериях оценки, подобное сравнение можно сделать объективным и фокусировать жюри на оценку качества решения каждого отдельного кейса, но на практике, во-первых, критерии оценивания хромают почти всегда, во-вторых, субъективность жюри при оценке никак убрать не получится.
Наверное, такая проблема связана с попыткой привлечь больше команд, больше кейсодержателей, увеличить масштаб хакатона, но сделать это с ограниченным бюджетом, чтобы награждать всего одну призовую тройку. После пары попаданий на такие хакатоны мы перестали участвовать, потому что здесь невозможно что-то прогнозировать, а кейсы, которые нам интересны, обычно не самые яркие, хоть мы и старались показать какой-то вау-эффект в рамках нашего кейса. Не работает.
История четвёртая: невыполнимая задача…
Суть проблемы: Как бы ты не старался, шанс сделать и продемонстрировать законченное решение стремится к нулю.
Стоит признаться, что нам такая проблема встретилась лишь однажды, но она заставила сняться с хакатона после 24 часов работы (остальные команды снялись еще раньше, и кейс остался вообще без решений), поэтому стоит о ней написать и предупредить читателей заранее.
Бывает, что компанию или отдельных людей просят подготовить data science кейс на хакатон, но у людей нет сил/времени/представления о хакатонах (выбери свой вариант). В таком случае возможно разное, но одной из самых больших проблем в ДС задаче может быть ее невыполнимость. Почему я говорю именно про ДС задачу? Потому что как правило в ДС задаче нужно получить в виде результата помимо презентации ещё и значение метрики качества. В лучшем случае, задача решается с плохим качеством и это просто отвергнутая бизнес гипотеза (отличная причина для компании ставить кейс на хакатон), в худшем случае задача не решается за время хакатона и участники не способны дойти до значения метрики. Понимая такой риск, участники могут концентрироваться не на качественном (насколько это возможно в рамках хакатона) решении, а на получении первого результата, возможно даже без машинного обучения. Наверно, опытные хакатонщики по дефолту не совершают такую ошибку и работают над самой простой версией решения сразу, но новичкам это может быть полезно знать.
Чтобы не столкнуться с такой проблемой постановщики кейсов на хакатоны часто дают решённые задачи (что, на мой взгляд, тоже не очень хорошо) или до хакатонов готовят какие-то бейзлайны (что говорит о высоком уровне понимания организаторов), подтверждающие возможность решить задачу и задающие метрику, которую нужно побить.
История пятая: Информацию опубликуем чуть позже…
Суть проблемы: Нет информации о призовых, или она очень размыта. Нет положения, правил и тд.
Довольно часто положение или отдельные его пункты публикуют в момент открытия хакатона или за несколько часов до. Иногда информация о призах появляется во время хакатона. Однажды информацию о призовых деньгах сообщили в момент награждения (что их не будет, будет только грант на вычислительные ресурсы). Здесь стоит понимать все риски и принимать взвешенное решение, но у хороших хакатонов положение публикуют заранее и не меняют его после публикации (или хотя бы после начала хакатона).
Можно сказать, что если такое встречается на понятных площадках и у опытных организаторов, то сюрпризов ждать не стоит, но в других случаях для вас может стать неожиданностью, что все права на разработку принадлежат организаторам хакатона (ладно, если только у победителей и в обмен на призовые) или запрет на участие несовершеннолетних, или запрет на использование коммерческого ПО или даже open-source не с MIT лицензией и тд.
Достойны упоминания следующие проблемы
- Мы, конечно, видим критерии и согласны, что вы должны занять первое место, но больше хотим, чтобы победили эти ребята.
Совет: смириться и подавать апелляции
- У нас крутой хакатон! Даже кэгл используем! Настоящее соревнование по анализу данных и машинному обучению! Приватный лидерборд? Не слышали.
Совет: переобучайтесь под публичный лидерборд, пилите крутую презентацию (универсальный совет), потому что качество у всех будет +- одинаковое
- Вопросы задавать нельзя/доступа до экспертов нет/чекпоинтов не будет/все написано в задании, ждем результат через 2 дня!
Совет: бегите
- Приходит команда, которая несколько лет делает проект по теме хакатона, презентует его и побеждает, ничего не делая на хакатоне.
Совет: читайте правила, делайте так же, если правила позволяют, бегите
- Мы тут правила немного поменяли… Ну и что, что хакатон уже идет?
Совет: смириться (или бежать)
В завершении стоит отметить, что это далеко не все проблемы с которыми вы можете столкнуться. Я точно заметил, что со временем проблем стало меньше, а организаторы стали опытнее. Да и вообще не все страдают от перечисленных "проблем", ведь для кого-то, кто понимает как воспользоваться ситуацией, это отличная возможность попасть в призы не с лучшим решением. На мой взгляд эти "проблемы" снижают прозрачность процессов и прогнозируемость результатов. Кстати, с классической разработкой все немного попроще, а вот с анализом данных и машинным обучением посложнее – поэтому часто дата сайентистам проще и полезнее участвовать в проверенных соревнованиях от опытных компаний или в соревнованиях на кэгле.