Еще можно добавить генерацию голоса для того, чтобы учиться правильному произношению.
Пишешь текстом - отвечают текстом.
Записываешь голосом - отвечают голосом.
Я для похожей штуки брал API play.ht, у них супер реалистичные голоса.
Хорошая статья.
Не знаю, какая версия DALL-E используется в пятой версии Midjourney, но после добавления к запросу "michael walking on street18:42" - - v 5 и - - q 2 кстати получилась неплохая фотография.
Как будто на удержание ещё сильно влияет монтаж: но не качество, а именно всякие приближения / отдаления и прочие динамические элементы, заставляющие зрачки расширяться от прилива дофамина.
Хорошая статья, спасибо.