О качестве данных для машинного обучения
Привет, меня зовут Юрий Кацер, я - эксперт по анализу данных и машинному обучению в задачах промышленности. Чуть больше обо мне можно узнать на моей странице. Также я пишу на медиум.
Это первая статья, надеюсь, из многих, но в ближайших нескольких постах я планирую поговорить о данных, проблемах в них, методах предварительной обработки с точки зрения машинного обучения и о задачах, которые машинное обучение может решать в промышленности. Информация из данного поста также доступна на английском языке по ссылке на медиуме.
Не является секретом, что для обучения искусственного интеллекта (ИИ) и моделей машинного обучения нужны данные, это одна из трёх важных компонент для возможности применять ИИ на практике (наряду с алгоритмами и признаками) согласно этой статье:
Качественные наборы данных многими компаниями ценятся больше алгоритмов.
Но многие почему-то забывают, что важно иметь не просто данные, а данные высокого (или хотя бы приемлемого) качества. Есть даже такое известное выражение про машинное обучение: garbage in-garbage out, что значит плохие данные на входе - плохой результат на выходе. Это одно из серьезных ограничений на сегодня (непонимание этого правила и само отсутствие качественных данных) для более успешного и масштабного внедрения машинного обучения в бизнес.
Если мы говорим про промышленность, то можно заметить относительно большое количество данных (часто достаточное для внедрения ИИ), собираемое на производствах за счёт наличия различных информационных систем: mes, erp, асу тп и др. При этом часто верно следующее высказывание про данные:
Объем бьет качество в большинстве случаев.
Несмотря на эти факты, как правило, сбор данных и внедрение систем, включая установку датчиков, не были направлены на сбор данных для ИИ, а решали свои локальные задачи (анализ инцидентов, диагностика, отчетность, ручной мониторинг процесса, требования нормативной документации), поэтому сбор данных не организован оптимальным образом, а встречаются следующие ограничения:
- Сбор данных не всего процесса,
- Отсутствие сохранения данных,
- Отсутствие разметки (бумажные журналы об инцидентах или их отсутствие/некачественное ведение),
- И др.
Это скорее фундаментальные проблемы процесса сбора данных, которые не позволяют даже поставить задачу, и в таких случаях даже большие накопленные объемы данных могут не помочь. Решаются подобные проблемы организационными мерами и ручным трудом, но есть набор проблем с данными, которым можно решить с помощью методов предварительной обработки. Тут мы и подошли к самому интересному, но об этом в следующих постах.
Я создал телеграм канал DataKatser, где появляюсь гораздо чаще и делюсь своими мыслями и интересными кейсами по data science, машинному обучению и искусственному интеллекту. Буду рад вашей подписке!