Какое-то время назад тоже пришлось позаниматься машинным переводом. Цель была сделать оффлайн перевод для iOS. Основная проблема была - найти качественный датасет. Т.к. для обучения использовал параллельные субтитры, а они далеко не всегда один в один соответствуют друг другу. Так же накладывала ограничение на структуру сетки конвертация в CoreML, т.к. там есть ограничения, не всякий слой можно было безболезненно сконвертировать. В целом, сетка переводила не плохо, даже с учетом грязного датасета. Но явно не дотягивала до необходимого качаества) Хотя, в целом, опыт получил интересный)
Я тоже использовал субтитры для тренировки, но их надо сильно фильтровать. И это задача не из легких. Самые лучшие датасеты, на мой взгляд - это заседания Европарламента.
Спасибо за статью.
Какое-то время назад тоже пришлось позаниматься машинным переводом. Цель была сделать оффлайн перевод для iOS. Основная проблема была - найти качественный датасет. Т.к. для обучения использовал параллельные субтитры, а они далеко не всегда один в один соответствуют друг другу.
Так же накладывала ограничение на структуру сетки конвертация в CoreML, т.к. там есть ограничения, не всякий слой можно было безболезненно сконвертировать. В целом, сетка переводила не плохо, даже с учетом грязного датасета. Но явно не дотягивала до необходимого качаества) Хотя, в целом, опыт получил интересный)
Я тоже использовал субтитры для тренировки, но их надо сильно фильтровать. И это задача не из легких. Самые лучшие датасеты, на мой взгляд - это заседания Европарламента.