Как мы собрали систему для построения персональных образовательных траекторий
Привет, я Рачик Акопян, CTO в Leoni – небольшом, но амбициозном edtech-стартапе. Наша миссия – помочь детям и их родителям находить оптимальные пути развития через персонализированные образовательные траектории. Мы создали платформу, которая включает онлайн-ассессмент для диагностики навыков и рекомендаций, а также алгоритмы, предлагающие релевантные занятия. В этом материале я расскажу, как мы превратили первые наивные попытки в мощное и масштабируемое решение на базе AI и облачных технологий.
Первая версия: От ручной классификации к минимальному жизнеспособному продукту
На старте у нас была лишь общая идея – создать сервис, который подскажет родителям, какие навыки нужно развивать для достижения поставленной цели, и найдет подходящие образовательные занятия. Но как и любой стартап, мы начали с MVP, собранного на коленке:
- Мы обзванивали провайдеров занятий по Москве и вручную наполняли базу, включая расписание, локацию и стоимость.
- Сопоставляли компетенции из внутреннего классификатора профессионально важных качеств с программами обучения провайдеров
- Разработали механику оценки компетенций и диагностировали детей, определяя их зону ближайшего развития, то есть навыки, которые можно развить в ближайшее время.
- Алгоритм предлагал занятия на основе совпадений: если навыки Х1, Х2 и Х3 соответствовали содержанию занятия, оно рекомендовалось пользователю. Если точного совпадения не находилось, алгоритм начинал подбор по менее полному пересечению.
Основная проблема первой версии – ручная работа на всех этапах. Постоянный мониторинг актуальности программы занятий, узкая база и отсутствие автоматизации приводили к нерелевантным рекомендациям или их отсутствию.
Автоматизация и ML: Уход от рутины и гибкие базы данных
Для масштабирования системы нам нужно было избавиться от ручной работы и обеспечить гибкость данных. Вот что сделала наша команда:
Этап 1. Автоматизация парсинга данных:
Мы запустили несколько парсеров на Python, которые собирают данные с разных сайтов и провайдеров. Учитывая что источники сильно отличаются друг от друга, для хранения данных выбрали MongoDB – она хорошо подходит для сохранения структур с разными параметрами
Этап 2. Переход на ML-классификацию:
Мы собрали датасет с образовательными программами, провели разметку через Яндекс.Задания и обучили модель на основе BERT на сервисе Yandex DataSphere. Это позволило системе определять навыки в 70% случаев, но этого было недостаточно.
Этап 3. Улучшение модели с помощью GPT:
Чтобы повысить точность, мы использовали промпты Yandex GPT (это разметка данных при помощи другой модели), провели доразметку и повторное обучение. В итоге точность предсказаний выросла до 90%.
Архитектура и API: Полностью автоматизированный процесс
Команда выстроила полностью автоматизированное решение, охватывающее весь цикл, – от сбора и предобработки данных до конечного API, доступного пользователям. Как это работает:
- Данные собираются и обрабатываются парсерами.
- ML-модель анализирует и классифицирует данные.
- Алгоритм подбирает рекомендации на основе запроса пользователя.
- API выдает результаты в виде индивидуальной образовательной траектории.
Облачная инфраструктура на базе Yandex Cloud позволяет нам гибко масштабироваться при увеличении нагрузки и быстро обновлять систему.
Следующие шаги: Расширение и масштабирование
На данный момент мы работаем над расширением источников данных, добавляем книги, фильмы, игры и другие сущности для рекомендаций. Кроме этого, ставим задачу поработать с учетом времени и локации при подборе занятий, чтобы предложения соответствовали графику и месту жительства пользователя. Ну и у нас есть запрос на повышение точности модели за счет регулярного дообучения новыми данными и масштабирования системы для поддержки большего числа пользователей.
Что в итоге?
На пути от ручного MVP до автоматизированной AI-системы мы научились многому. Главный вывод – автоматизация процессов и использование облачных технологий кардинально меняют подход к управлению образованием. Теперь у нас есть система, которая способна не просто находить подходящие занятия, но и рекомендовать их максимально точно и персонально.
Если вы работаете над подобными решениями в edtech, помните: не бойтесь начинать с малого и будьте готовы адаптироваться. Правильная инфраструктура и алгоритмы – это лишь половина успеха, вторая половина – это понимание нужд ваших пользователей и постоянное развитие.
Буду рад обсудить наш опыт и услышать ваши идеи в комментариях!