Несколько десятков часов мы обучали SlowFast. Применив модель на тестовой выборке, получили метрики, которые, на первый взгляд, были далеки от идеальных. Мы стали подробно анализировать видеофрагменты, на которых модель неверно определяет тип действия, и пришли к положительному для нас выводу: модель ошибается там, где визуально невозможно определить действие. Например, если лобовое стекло слишком грязное или стрелы буровой установки находятся вне кадра камеры.