Путь филолога в Data Science: «Лаборатория Касперского», преподавание в университете и PhD в Ирландии

Серия интервью со специалистками в рамках нашего спецпроекта Women Power IT

Оксана Дереза

PhD candidate / Researcher, Insight Centre for Data Analytics (National University of Ireland Galway), ex. преподавательница НИУ ВШЭ, ex. менторка SkillFactory

Гуманитарий vs. технарь

Путь филолога в Data Science: «Лаборатория Касперского», преподавание в университете и PhD в Ирландии

В детстве я побаивалась математики и всего технического, но, пройдя путь от филолога до NLP-инженера, поняла, что разделение «гуманитарий vs. технарь» искусственно. Поэтому, если в школе у вас было плохо с точными науками, не нужно сейчас их бояться. Возможно, вам их просто плохо преподавали.

Если вы сомневаетесь, стоит ли идти в IT, попробуйте понять, в чем причина ваших сомнений. Если останавливает только то, что вы девушка и/или «гуманитарий», то отбрасывайте эти предрассудки и пробуйте себя. Ни пол, ни успехи в гуманитарных науках на технические способности не влияют. Если вы просто не знаете, ваше ли это вообще, то постарайтесь разобраться, какие профессии бывают в IT и что из этого вам хотелось бы делать. Если единственная мотивация развиваться в этом направлении — «в IT много денег», то это не поможет стать хорошим специалистом.

Меня постоянно поддерживало то, что мне это было интересно. Иногда возникали опасения, что у меня недостаточно бэкграунда, чтобы стать хорошим IT-специалистом, и однажды меня «раскусят» и с позором выгонят отовсюду, но фидбэк от преподавателей и публикации после выступлений на конференциях добавляли уверенности.

От кельтолога до компьютерного лингвиста

Путь филолога в Data Science: «Лаборатория Касперского», преподавание в университете и PhD в Ирландии

В какой-то мере весь мой путь в Data Science — череда случайностей. В 2010 году я поступила на филфак МГУ и переехала из Челябинска в Москву. На пятом курсе я начала подрабатывать на удалёнке парт-тайм в «Лаборатории Касперского» веб-аналитиком. Для этого не были нужны никакие технические навыки. Я занималась анализом датского веб-контента, поэтому всё, что от меня требовалось — это знание языка. Чем дольше я работала, тем больше мне нравилось IT и атмосфера компании. Так я решила, что хочу дальше развиваться в этой сфере.

Закончив МГУ, я поступила в магистратуру НИУ ВШЭ «Компьютерная лингвистика» (она же Natural Language Processing, или NLP), чтобы иметь возможность изучать программирование и математику, но при этом работать с текстами. Всё это время я продолжала работать в «Лаборатории Касперского» над продуктом для родительского контроля «Kaspersky Safe Kids». Мы занимались контент-фильтрацией — одной из задач Data Science. Собственно на работе я и узнала про эту область.

Чтобы учиться на практике, я начала просить коллег о задачах, связанных с анализом данных. Должна сказать, что NLP не является частью Data Science, но пересекается с этой областью. То, что их объединяет — это сбор и анализ текстовых данных. А поскольку мы занимались анализом веб-контента, текстовых данных у нас как раз было много.

В 2017 году я закончила магистратуру и осталась преподавать в университете. Вскоре пришлось сделать выбор: индустрия или академия. Я остановилась на втором, потому что исследования и преподавание мне были интереснее. В течение двух лет я вела различные курсы по Python и компьютерной лингвистике в НИУ ВШЭ, а в МГУ преподавала ирландский язык.

Я всегда мечтала написать диссертацию. Меня интересовали одновременно кельтские языки и компьютерные науки, а в нашей стране найти хорошего научного руководителя на такой междисциплинарный проект довольно сложно. Да и продолжать жертвовать личным комфортом и уровнем жизни ради науки не хотелось, поэтому я искала зарубежные гранты. В итоге я подалась на два гранта, получила оба и уехала работать в Ирландию.

Про гендерное неравенство

Путь филолога в Data Science: «Лаборатория Касперского», преподавание в университете и PhD в Ирландии

Мне повезло. В IT я работала в преимущественно мужских командах, но никогда не сталкивалась с притеснением по половому признаку. Однако я не раз слышала такие истории от подруг: про обучение в университете на технических специальностях и про предвзятое отношение на работе.

Где искать грант

Путь филолога в Data Science: «Лаборатория Касперского», преподавание в университете и PhD в Ирландии

Я начала ездить на научные конференции и публиковать статьи уже на 2 курсе МГУ, и за 5-6 лет у меня сложилась хорошая сеть контактов как среди кельтологов, так и среди компьютерных лингвистов. Когда ирландский проект «Cardamom» по NLP для миноритарных и древних языков получил грант и там открылось две PhD-позиции с полным финансированием, мне об этом написали сразу трое зарубежных коллег. Это было именно то, что я хотела, поэтому я сразу подала заявку.

Это было похоже на обычный найм на работу: отправила резюме, прошла интервью по скайпу и меня пригласили. Так обычно бывает, когда большой проект получает грант, и его руководитель собирает команду. Если же вы поступаете в зарубежную аспирантуру на общих условиях, то найти финансирование, которое покроет хотя бы стоимость обучения, уже сложнее. Но в IT, как правило, всё-таки ищут людей в проект.

Чем я занимаюсь

Путь филолога в Data Science: «Лаборатория Касперского», преподавание в университете и PhD в Ирландии

Сейчас я работаю на западном побережье Ирландии в научно-исследовательском институте Insight Centre for Data Analytics в лаборатории Unit for Linguistic Data. Всего я занята в трёх проектах, один из которых — мое собственное исследование.

  • Мой основной проект, «Comparative Deep Models for Minority and Historical Languages», или Cardamom, нацелен на создание пайплайна для работы с древними и миноритарными языками. На текущем этапе мы собираем данные из соцсетей и других открытых источников — например, электронных изданий текстов. Я отвечаю за миноритарные языки России (чувашский, лезгинский и т.д.) и за древние индо-европейские языки (древнеирландский, древнеисландский и т.д.): пишу краулеры, структурирую данные.
  • В большом европейском проекте по компьютерной лексикографии Elexis я помогаю с ирландским языком.
  • Мои собственные исследования посвящены диахроническим моделям эмбеддингов. Для обучения эмбеддингов нужно много данных, а текстов на древних языках сравнительно мало. К этому добавляется сложность грамматики, ненормированная орфография и прочие лингвистические проблемы. И есть гипотеза, что данные более позднего состояния языка помогут лучше смоделировать более ранние стадии его развития. Если она подтвердится, то тогда наши результаты помогут историкам языка.

Стартер-пак для работы в Data Science

Путь филолога в Data Science: «Лаборатория Касперского», преподавание в университете и PhD в Ирландии
  • Язык программирования Python, чтобы работать с данными.

  • Базовая математика — линейная алгебра, теория вероятности, математический анализ.

  • Понимание предметной области, в которой вы будете работать.
  • Портфолио. Это могут быть учебные проекты или участие в соревнованиях, например, на Kaggle.
Путь филолога в Data Science: «Лаборатория Касперского», преподавание в университете и PhD в Ирландии

FAQ

- Что занимает больше времени: сбор или анализ данных?

- Сбор. Для анализа есть много библиотек и, как правило, никто не изобретает велосипед.

- Куда идти учиться, чтобы сменить профессию?

- Смотря на каком этапе вы хотите ее сменить и какие цели преследуете. Если вы решили сменить профессию после нескольких лет работы по другой специальности и хотите работать в индустрии, то на курсы: они ориентируются на практические задачи и занимают меньше времени, чем высшее образование. Если же вы недавно закончили университет, то стоит рассмотреть магистратуру — особенно если вы потом хотите остаться в академии.

- Надо ли знать английский язык?

- Да. Он помогает общаться с коллегами из других стран, если у вас многоязычная команда. А ещё на английском выходят все научные статьи, блоги и документация библиотек, поэтому знание языка помогает быть всегда в курсе новостей.

Первая версия текста содержала ошибки и были исправлены по согласованию с авторкой, приносим свои извинения.

66
5 комментариев

Спасибо, отличная статья, особенно полезно про Kaggle и гранты.

А употребление гендерной лингвистики очаровывает всех:

— и граммар-наци («лингвист», «инженер»)
— и суфражисток («специалистка», «исследовательница»)
— и феминисток («сайентистка», «менторка»)

2

Плюс за честность что основная черная работа в романтизированном DS NLP это сбор данных, разработка парсеров, скраперов, пауков - краулеров. Напомню своим ученикам!

Есть на всякий, есть на случай,
В "Корабле" специалист -
Ваш великий и могучий
Структуральнейший лингвист. :) (с)

Успехов и удачи! :)

Спасибо за статью, очень полезно!
Что скажете о магистратуре ВШЭ «Компьютерная лингвистика» (она же NLP), неужели ее могут заменить какие-то курсы?

пиреехала из деревни в город и полеслось