Изумительная DALL-E 3 теперь доступна через API
До недавнего времени основным игроком в области генерации изображений с помощью искусственного интеллекта была компания и её одноимённый проект - Midjourney. Запущенный в июле 2022, продукт стал безумно популярным. Пользователи полюбили его за невероятную реалистичность изображений и готовность справиться с любым, даже очень сложным, с множеством деталей и нюансов заданием. Чего стоит только разошедшаяся на мемы фотография Папы Римского в модном белом пуховике.
У компании OpenAI, прославившейся благодаря чат-боту ChatGPT, тоже была модель для генерации изображений - DALL-E 2. Однако качество производимого контента и внимательность к содержанию запроса была несравнимо хуже, чем у конкурента.
Так было до выпуска новой версии модели DALL-E 3 в конце лета 2023 года, которая стала сначала доступна узкому кругу "испытателей", а в октябре - всем премиум-пользователям ChatGPT. 6 ноября 2023 года, на первой конференции для разработчиков OpenAI DevDay, было наконец объявлено о начале поддержки DALL-E 3 в API, так что интегрировать новую модель в свои приложения и проекты стало намного проще.
Получить доступ к последним моделям OpenAI API в России для генерации текста и изображений, в том числе DALL-E 3 можно уже сегодня через сервис ProxyAPI.
Что может DALL-E 3?
Проведём небольшое исследование, я попробую создать несколько изображений с разным содержанием и стилем.
Винтажный плакат
Прекрасное атмосферное изображение, все детали присутствуют.
Бумажная аппликация
Тигры почему-то тоже зелёные, но так, по-моему, даже лучше.
Пиксель-арт
Напоминает игры из 90-х. Отличная работа!
Рисунок
Сначала была попытка сделать рисунок "распушившегося" котёнка, но DALL-E, видимо, пока не знает такой концепции и генерировал скорее какого-то фантастического котёнка с непомерно большой шерстью.
Фотореализм
Подсмотрел такой же промпт (запрос) у кого-то на Midjourney, результат DALL-E 3 ничем не хуже. Особенно мне понравился фон: капли дождя и другие воины, серое небо, в дополнение к запрошенным изначально языкам пламени.
Логотип
DALL-E 3 отлично рисует логотипы и иконки. Я не усложнял запрос в этот раз, но возможности практически ничем не ограничены, можно и текст вставлять в картинку, и выводить одноцветное изображение - всё, для того чтобы потом использовать для своего продукта или компании.
3-D Рендеринг
Какая внимательность к деталям! Всегда хотел такой шар.
На мой взгляд, у Midjourney появился очень серьёзный конкурент. По некоторым запросам DALL-E 3 справляется даже лучше. Многими пользователями отмечено беспрецедентное внимание к деталям, которые Midjourney порой может и упустить.
Для разработчиков это, пожалуй, вообще единственный вариант интегрировать генерацию изображений в свои приложения или проекты, так как у Midjourney до сих пор нет публичного API.
В России доступ заблокирован как к ChatGPT, так и к API. Но с помощью сервиса ProxyAPI можно получить доступ даже несмотря на это.
Фотореализм у него конечно еще хромает
Да, есть смысл сравнивать по реалистичности в сравнении с фотографиями..