Кейс: Ускорили согласование документов в 4 раза и сократили трудозатраты в 7 раз с помощью ИИ
Расскажу о нашем опыте разработки проекта с ИИ, который дает измеримый эффект: экономию времени и денег. Проект выполнен за 3 месяца и стоимость его разработки окупается не более чем за полгода.
Проблема
Компания ГК "ФСК" ведет активное развитие девелоперских проектов, что влечет за собой потребность в привлечении большого количества подрядчиков. С ростом количества проектов и подрядчиков увеличиваются трудозатраты по рутинным операциям, что могло бы привести к увеличению штатной численности сотрудников.
Есть большой отдел специалистов-сметчиков, которые вручную обрабатывают описания видов строительных работ и сопоставляют с классификатором. Это монотонный, длительный процесс, при котором возможны ошибки,
Решение
Разработка API-сервиса, интегрированного во внутренний контур ГК ФСК. В основе сервиса лежит нейросетевая модель, которая работает локально и работает офлайн, данные не покидают серверов компании.
Принцип работы сервиса следующий:
- Сотрудник компании в интерфейсе системы передает текстовые описания видов работ, которые необходимо отнести к классам из перечня классификатора компании
- При помощи API эти данные в формате json передаются в модуль классификации. В нем данные предварительно обрабатываются, валидируются, переводятся в математический вид
- Подготовленные данные передаются на вход математической модели, и для каждого текстового описания она возвращает топ-5 возможных классов из списка классификатора, с процентами вероятности
- Предсказания по API возвращаются в интерфейс пользователя, где он может валидировать результаты предсказаний
Кроме того, в модель заложен модуль переобучения математической модели. Если у клиента изменились данные (появились новые текстовые примеры, новые классы и т.д.), он может инициировать процесс переобучения модели. Если новая модель удовлетворяет метрикам качества, то она заменяет текущую модель сервиса.
Результаты
- Автоматизировано рабочее место специалиста-сметчика (38 рабочих мест)
- Минимизация трудозатрат в 7 раз и отказ от привлечения дополнительных двух специалистов-сметчиков
- Ускорение согласования выполненных работ в 4 раза, повышение скорости оплат подрядчиками ГК ФСК в 2 раза (стоит отметить, что такой результат получен не только данной разработкой, ощутимый эффект был получен в результате внедрения личного кабинета подрядчика, о котором мы расскажем в отдельной статье)
- Скорость работы ИИ – 500 строк за 1 секунду на CPU
- Точность нейросетевой модели более 90%
- Reliable ML-продукт, не требующий поддержки: модель автоматически переобучается, отслеживаются метрики качества
Технические детали и интересные цифры
Разное количество примеров данных для каждого класса
Обычно сырые данные редко представлены в одинаковом объеме, какие-то работы проводятся реже (заливка фундамента), а какие-то в больших объемах (отделочные работы помещений). Чтобы модель могла эффективно отличать такие текстовые описания, необходимо достаточное количество примеров, а лучше - одинаковое для всех классов. В выборке были классы как с 1, 2, 3 примерами текста, так и с 5000, 12000 примеров.
Необходимо было найти способ для улучшения качества классификации таких малых классов. Были созданы искусственные примеры текстовых описаний, которые позволили улучшить точность классификации для этих классов на десятки процентов.
Ускорение работы модели на CPU
Современные нейросетевые модели хотя и являются мощными решениями задач естественной обработки языка, но они очень медлительны и объемны при работе на пользовательских ЦП. Наши аналитики нашли способ ускорения этого процесса, снизив время обработки 500 фраз в 256 символов до 1 секунды, включая весь процесс обработки.
Интересные цифры
— Обучено 6 математических моделей: 4 нейросетевых модели типа трансформер и 2 комбинированных модели на основе текста и нейросетевых текстовых представлений
— Отмечено повышение точности классификации для малых классов в среднем на 15% за счет решения проблем дисбаланса классов
— Более 96 часов потрачено на обучение моделей
Тех. стек
Backend: Python, FastAPI, SQLAlchemy, MLFlow
ML: Python, PyTorch, Transformers, CatBoost, Pandas, scikit-learn, NLTK, RuTransform
Немного про компанию Spacecode
Spacecode занимается разработкой и внедрением цифровых решений на базе искусственного интеллекта (веб-разработка, ML/CV). Наша миссия – создание цифровых систем, которые дают понятный и измеримый экономический эффект.
Имеем опыт разработки веб-сервисов, систем динамического ценообразования и управления продажами, автоматизации HR-процессов, предективной диагностике оборудования, NLP, DWH, ETL.
В статье приведен пример небольшого ИИ-проекта с точки зрения сроков реализации и стоимости, который дает реальное экономическое value для заказчика.
Хочется отметить, что такая задача может быть выполнена практически в любом монотонном процессе. Если у вас есть остались вопросы, буду рад ответить на них в комментариях.