Как Skyeng использует speech recognition для контроля качества уроков

Рассказывает Инна Ярошенко, руководитель отдела контроля качества в Skyeng.

Как Skyeng использует speech recognition для контроля качества уроков

Skyeng — это, в первую очередь, школа. Поэтому нам всегда было важно контролировать качество уроков и делать занятия лучше. Однако именно в 2019 году мы углубились в сам по себе критерий «Качество урока» и смогли точно определить, что он в себе несет.

Что было до 2019 года? Мы использовали для контроля качества методический чек-лист, который, по мнению экспертов Кембриджского университета, определяет качественный урок в соответствии с международными стандартами. Команда аудиторов с помощью этого чек-листа оценивала по одному случайному уроку у каждого преподавателя.

Такой подход давал нам какую-то информацию, но:

  • результаты нельзя было назвать статистически значимыми, так как всего один урок — это ничто, если учесть, что в месяц проводится в среднем до 500 тыс уроков;
  • итоги по качеству уроков не совпадали с тем, насколько преподаватель успешно работает с учениками;
  • он не был масштабируемым, а его развитие привело бы к неравномерному росту затрат.

Поэтому мы параллельно начали работу над автоматической системой оценки качества уроков.

Продуктовый подход в контроле качества

При построении автоматической системы оценки качества мы решили начать с нулевой отметки и найти ответ на вопрос «Какой урок считают качественным наши ученики?». Алгоритм работы был следующий:

1. Собираем гипотезы того, что может быть критерием качества

В процессе сбора гипотез были задействованы все источники, которые нам казались логичными. Основным источником были результаты обработки CusdDev-ов учеников, которые рассказывали о своем удачном или неудачном опыте в школе. Второй источник данных — все критерии качественного урока, которые предъявляются Кембриджским университетом. Третий — это все обезличенные данные ученика, которые собираются в системе Vimbox в процессе урока. Четвертый — результаты мозговых штурмов команд, которые напрямую ежедневно работают с преподавателями и уроками.

В результате было сформулировано 77 гипотез, которые можно было разделить на 5 блоков:

  • визуальные: включена или выключена камера, учитель отвлекается, есть третьи лица на уроке и т.п.;
  • методические: постановка задач говорения, работа с планом урока, разогрев и подведение итогов урока и т.д.;
  • поведенческие: этичность поведения на уроке, комплименты, персонификация урока;
  • эмоциональные: переживание эмоций на уроке;
  • административные: опоздание на урок, плохая связь или обрывы урока и т.д.

2. Находим способы сбора данных по этим критериям

На этом этапе работы было больше всего. Если административные критерии достаточно легко оценить на основании информации в базах данных школы, то текст, который говорит преподаватель на уроке, — это «черный ящик».

Так как для замера методических и поведенческих факторов необходимо было анализировать речь преподавателя, то решением для нас стала технология распознавания речи и дальнейший анализ полученных данных.

3. Проверяем корреляцию между каждым критерием и составляющими LT

Почему привязываемся к LT? Мы уверены, что именно готовность ученика учиться и платить за это говорит о качестве урока.

4. Создаем модель оценки из критериев с доказанной корреляцией

5. Формируем дашборды и системы эскалаций для повышения качества уроков

Как применили технологию распознавания речи и что получили в итоге

Итак, мы сформировали гипотезы методических и поведенческих факторов. Что делать дальше?

Важно понимать, что система распознавания речи — это не волшебная таблетка. Система отдает вам полотно текста и может сделать для вас две основные задачи:

  • дать некоторые статистические данные – например, скорость речи или процент говорения учителя или ученика во время урока;

  • показать, сколько раз употреблялось определенное слово или словосочетание.

Бесспорно, первый аспект — очень ценный, но именно настройка второго позволила нам определить результаты по отобранным критериям. Поэтому, опираясь на свои годы опыта проведения ручного аудита (только за 2019 год было прослушано более 25 000 уроков), мы сформировали словарь под каждый критерий.

Например, для оценки критерия «Объявление плана урока со стороны преподавателя» мы сформировали словарь, который содержит фразы:

  • On this lesson we will
  • On this lesson we are going
  • Today we will
  • The topic of the lesson
  • Topic of this lesson
  • Topic of lesson etc.

Затем мы запросили у системы статистику этих фраз. Итогом стала сводная таблица, в которой отображается, что на уроке между преподавателем и учеником такие-то критерии выполнены, а такие-то — нет.

С полученными данными мы смогли перейти к третьему этапу — этапу проверки корреляций, чтобы выделить и оставить для дальнейшей работы только те критерии, которые имеют связь с успешным обучением. Конечно, корреляции — это еще не причинно-следственные связи, но это уже что-то, с чего можно начинать.

Итогом этой работы стала модель оценки качества работы каждого преподавателя, которая состоит из 20 разноплановых критериев. При этом нам удается решить те проблемы, которые были в начале: теперь мы можем оценивать статистически значимый объем уроков с ростом затрат не в 20 раз (как было бы при ручном аудите), а лишь в 2 раза. К тому же результаты становятся более показательными с точки зрения успешного обучения ученика.

2121
10 комментариев

Какие технологии используете для распознавания? Качество распознавания не накладывает свой отпечаток на выводы о результатах?

2
Ответить

Мы не разрабатывали свою систему. Пока))
Поэтому активно работали с партнерами, которые и предоставили само техническое решение
Что касается точности, то, конечно, точность распознавания не 100%, поэтому накладывает отпечаток на итоговый результат. Не смотря на это, мы смогли добиться точность определения по всем значимым критериям 87% и выше (по разным критериям - разный)
Кроме этого будет реализована система апелляций от преподавателей, на основании которых мы будем иметь возможность и результаты откорректировать, и постоянно работать над повышениям качества самой модели.

2
Ответить

Итогом этой работы стала модель оценки качества работы каждого преподавателя, которая состоит из 20 разноплановых критериев. 


удалось ли за счет этой модели увеличить LT и насколько процентов?

1
Ответить

Новый процесс по этой модели запустили в январе, поэтому пока утвердительно не отвечу. Кроме того, LT сможем повысить не за счет того, что мы оцениваем, а только за счет того, что мы начнем работать с результатами  такой оценки. Т.о. результат будет еще более отодвинутый во времени
В связи с этим всем, предполагаем что сможем увидеть результат в LT уже во втором квартале

Ответить

Комментарий недоступен

1
Ответить

Мы подумаем об этом)

Ответить

А сколько получилось словарей/словарных параметров урока ?
И что еще вошло в оценку урока ? 

Ответить