Что нужно знать о machine learning, чтобы найти хорошую работу?

Оригинал статьи здесь

Источник: techgenix.com

Автор: Рауль Шарма

Перевод: Мария Агеева, Binary District

Если ориентироваться на тренды контент-маркетинга крупных IT-компаний, может сложиться впечатление, будто концепции искусственного интеллекта и машинного обучения каким-то неведомым, практически чудесным образом появились на свет лишь два-три года назад. Это, конечно, не так.

Термин «искусственный интеллект», как известно, программисты и исследователи использовали ещё в 1950-х — для описания машин, способных без посредничества человека адекватно решать абстрактные задачи. А machine learning — это один из наиболее известных методов практической реализации возможностей искусственного интеллекта. Машинное обучение базируется на создании алгоритмов, обладающих встроенной способностью распознавать паттерны при анализе больших массивов данных и использовать их для самообучения.

Кейсы Netflix и Amazon наглядно иллюстрируют, насколько умными, причём именно по-человечески умными, могут быть технологии благодаря применению machine learning. Когда Netflix, словно читая ваши мысли, предлагает вам именно те фильмы и сериалы, что непременно вас заинтересуют, — за этим стоит ML. Благодаря машинному обучению Amazon столь успешно убеждает вас купить в нагрузку к приобретаемому товару ещё что-нибудь. Чтобы предложить именно те товары, которые придутся вам по вкусу, используются сложные алгоритмы, обрабатывающие терабайты данных. Попробуйте представить, сколько существует бизнес-кейсов, в которых ML может изменить статус-кво. Очевидно, что machine learning — привлекательная сфера как для тех, кто только готовится к выбору профессии, так и для тех, кто мечтает о новом витке IT-карьеры.

Большинство энтузиастов machine learning волнует вопрос – учить Python или R? Для разработки программ, основанных на алгоритмах машинного обучения, действительно чаще всего применяются эти два языка программирования. Однако разработчикам, ориентированным на долгосрочный карьерный успех, такой вопрос себе задавать не стоит.

— Уникальные преимущества некоторых языков программирования облегчают решение связанных с AI проблем, а вы ведь не хотите провалить проект?

— Обладая доступом к библиотекам, не так уж сложно разрабатывать основанные на ML программы на любом языке программирования

— Некоторые из основанных на ML технологий не могут справиться с определёнными задачами, в таком случае программист должен уметь найти альтернативный вариант

— Помимо этого, появляются и новые подходы к реализации алгоритмов ML. Чтобы «оставаться в игре», нужно уметь адаптироваться к ситуации и осваивать технологию по мере того, как она меняется

Основы теории вероятности составляют ядро машинного обучения. Теорема Байеса, условная вероятность, функция правдоподобия, независимые и взаимообусловленные события — всем, кто мечтает об интересной работе в сфере machine learning, необходимо разобраться в этих элементах теории вероятности. Ведь эти концепции являются научной базой для решения проблемы неопределённости в алгоритмах машинного обучения. Математическое ожидание, медиана, мода, дисперсия, биномиальное распределение и т.д. — любой программист или специалист по анализу данных должен владеть этими концепциями, ведь иначе он не сможет проверять работу алгоритмов ML и совершенствовать их. Многие алгоритмы машинного обучения представляют из себя логичное продолжение процедур статистического моделирования.

Моделирование данных — это определение базовой структуры сложных массивов. Результативность алгоритма машинного обучения зависит от того, найдутся ли в этом массиве полезные паттерны: например, корреляция, собственный вектор, категоризация. В основе ML лежит постоянное совершенствование моделей данных. В зависимости от того, какая степень толерантности к ошибке заложена в приложении, для которого вы разрабатываете модель, принимается решение о мере точности и мере погрешности. Итеративные алгоритмы обучения должны уметь модифицировать модель в зависимости от меры погрешности. Без базовых знаний в области моделирования данных не получится разработать даже самый простой алгоритм.

Хорошая новость: для большей части базовых и стандартных реализаций ML-решений существуют библиотеки, API, пакеты программного обеспечения. Однако, чтобы преуспеть в работе над ML-проектами, совершенно необходимо:

— уметь выбирать подходящую модель (ближайший сосед, дерево решений, нейросеть, компиляция нескольких моделей)

— уметь выбирать подходящую для конкретного типа данных обучающую процедуру

— понимать, как гиперпараметры влияют на обучаемость алгоритма

— уметь оценивать плюсы и минусы разных подходов

Советуем энтузиастам, желающим постичь все нюансы machine learning, посетить сайт Kaggle, где собрано немало интересного материала по ML и анализу данных, включая практические задания.

Важно понимать, что данные всегда важнее алгоритмов. На основе данных можно реализовать выдающуюся программу — даже если алгоритм будет базовым. Так что всем, кто хочет построить IT-карьеру, работая с ML, придётся сначала изучить управление данными, организацию данных, анализ данных и только потом погружаться в разработку продвинутых алгоритмов. Ведь программисты, специализирующиеся на machine learning, много времени уделяют преобразованию данных, это – ключевой аспект их работы.

Технология machine learning сопряжена с обработкой больших массивов данных. Программисты едва смогли бы выполнять такой огромный объём работ, используя ресурсы лишь одного компьютера. Решение проблемы — распределённая обработка данных. Любой опыт в этой сфере может оказаться бесценным. Apache Hadoop и Amazon EC2 предлагают удачные решения для распределённой обработки данных, так что вам, вероятно, было бы полезно ознакомиться хотя бы с их основами.

Machine learning — единственная технология, способная обеспечить работу приложений с достаточно мощным потенциалом, чтобы произвести переворот в функционировании целых отраслей. Компании по всему миру уже вкладывают огромные суммы денег в разработку основанных на ML сервисов для внутреннего пользования. Таким образом, появляется всё больше новых вакансий, открывается широкий спектр возможностей трудоустройства. Следуйте советам, изложенным в этой статье, чтобы освоить machine learning и спланировать новый виток карьеры.

17 февраля на площадке Digital October пройдёт интенсивный однодневный курс Introduction to Machine learning, AI . Мы расскажем всё о самом перспективном инструменте для бизнеса, основанном на технологии искусственного интеллекта.

7 комментариев

S-ed

08.02.2018

Важно понимать, что данные всегда важнее алгоритмов.Не соглашусь. Да, основываясь на данных мы решаем какой алгоритм выбрать. Но неверно выбранное дерево нейронов - самая частая проблема нейросетей (вероятно 90%+).

Ответить

BinaryDistrict Russia

09.02.2018

Автор

Артём, диалог получился не очень конструктивный :)

Образовательные проекты имеют право на существование, вне зависимости от существования других образовательных проектов.

Собственные материалы у нас есть, и это не отменяет ценность переводов. Знание должно передаваться любыми доступными способами.

Перевод неадаптированный – несколько размытое утверждение.

Но за комментарий и время спасибо.

Artyom T.

Без проблем. Я выразил сомнения и предоставил аргументы.

Согласитесь, неприятно покупать продукт, как минимум, неизвестного качества, когда просто не знаешь, что такой же продукт, но точно высокого качества, открыт и предоставляется совершенно бесплатно - действительно с целью популяризации и просвещения.

Вы статью перевели некачественно, и при этом учить кого-то собрались? А после вводной лекции, наверное, еще и за деньги?

Вообще в курсе про бесплатные и хорошие intro-курсы ODS и DMIA?

Позорники.

Артём, подскажите, пожалуйста, в чём Вы увидели некачественность перевода?
Мы готовы поправить ошибки, если они действительно есть.

Учить, в любом случае, будет не переводчик статьи. Здесь можно посмотреть спикеров курса – https://binarydistrict.com/ru/courses/introduction-to-machine-learning/

Что нужно знать о machine learning, чтобы найти хорошую работу?

Почему карьера в machine learning — отличный выбор?

Гибкий подход к языкам программирования

Теория вероятности и статистика

Моделирование данных

Почему вам необходимо освоить библиотеки machine learning

Умелое обращение с данными

Распределённая обработка данных