DALL·E от новый алгоритм построенный на архитектуре GPT-3 обученный генерировать изображения по их текстовому описанию. Для этого использовался специальный датасет из пар «Текст»—«Изображение» и нейронная сеть величиной в 12 миллиардов параметров. В результате DALL·E способен генерировать иллюстрации, реалистичные фото, новые несуществующие комбина…
И еще один вопрос, на сколько это применимо для специфических задач, как сложно будет переобучить модель / собрать данные?
Зная Open AI это будет практически нереально. Как и с GPT-3 это очень дорого и сложно перетренировывать такую модель, поэтому они и делают ставку на "одна модель для всего"