«Автоматизированный фотошоп»: OpenAI представила нейросеть, которая редактирует изображения по текстовому описанию
GLIDE также умеет создавать картинки «с нуля».
Компания OpenAI, известная по разработке моделей искусственного интеллекта GPT-3 и DALL-E, продемонстрировала нейросеть под названием GLIDE. В отличие от аналогов, она способна не только генерировать изображения по текстовому описанию, но и редактировать существующие — с сохранением экспозиции и стиля.
Эффекта удалось достичь благодаря диффузионным моделям. Система искажает исходное изображение, постепенно добавляя в него гауссовский шум, а потом поворачивает процесс вспять, дорисовывая необходимые детали. По похожему принципу работает технология Google для увеличения разрешения.
Исследователи обучили сеть на 3,5 млрд параметров и протестировали её как с классификатором CLIP, так и автономно — второй подход оказался эффективнее и показал выборку более высокого качества.
Правки выполняются за несколько секунд с учётом теней и отражений. Кроме того, система распознаёт не только фотографии, но и иллюстрации, поэтому может адаптироваться под художника или стиль конкретной картины.
GLIDE позволяет создавать фотореалистичные изображения, объединять концепции правильным образом и осуществлять художественную визуализацию. По оценкам команды, результаты выглядят предпочтительнее образцов DALL-E в 87% случаях.
Обозреватели из ZME Science отметили, что качество итоговых снимков зачастую сопоставимо с кропотливой работой в Photoshop. Система справляется со сложными запросами вроде «повесить картину Ван Гога на стену», но не всегда понимает странные, такие как «автомобиль с треугольными колёсами».
Разработчики поделились результатами исследования на научном портале arXiv.org и опубликовали исходный код сокращённой модели на GitHub, чтобы её могли протестировать энтузиасты.
Теперь чуваки в твиттере смогут приклеивать пенисы всем подряд в 2 раза быстрее)
- Петрович, у тебя есть твиттер?
- Да был в молодости, но я его вылечил...😁
Комментарий недоступен
Да, первыми на выход идут высокооплачиваемые профессии с минимальной физической деятельностью.
Аналитики, программисты, юристы, получается теперь еще "художники" и дизайнеры.
Их не только будет удобно заменить нейросетью, но и выгодно.
Причем тут дизайн?
Вот и кнопка «Сделать охуенно» подоспела.
Возьму её на работу дизайнером