Нейросеть DALL-E 2/3: как пользоваться ИИ от OpenAI для генерации картинок + GPT
Развитие Нейросети DALL-E
OpenAI, разработчик революционного чат-бота ChatGPT, выпустил Dall-E в 2021 году. Это была одна из первых нейросетей, которые умеют качественно рисовать картинки по текстовому описанию. Однако у простых пользователей доступа к ней не было.
OpenAI, создатель инновационного чат-бота ChatGPT, выпустил Dall-E в 2021 году. Эта модель стала одной из первых нейронных сетей, способных создавать изображения по текстовому описанию. Однако обычным пользователям не было доступа к этой модели.
Весной того же года появилась упрощенная версия Dall-E mini, которая могла генерировать девять некачественных, но узнаваемых изображений прямо в браузере по текстовому промпту. Несмотря на низкое качество, это вызвало интерес интернет-пользователей, и модель стала популярной, порождая различные странные и мемные генерации.
В начале 2022 года OpenAI представила Dall-E 2, которая создавала более качественные изображения и поддерживала запросы на русском языке. Нейросеть появилась даже раньше, чем первые версии Stable Diffusion и Midjourney, которые стали широко известными благодаря своему открытому и бесплатному доступу.
Доступ к Dall-E 2 был доступен только через список ожидания, и мало кому удавалось его получить, поэтому эту версию практически не обсуждали в интернете. В сентябре 2022 года нейросеть открыли для всех: Dall-E 2 стала доступна на сайте OpenAI и позже в поисковике Bing.
Dall-E 3 была представлена в конце сентября 2023 года, а общедоступный доступ к ней появился в начале октября.
Нейросеть Dall-E доступна в боте @it_neural_bot как вторая, так и третья версия.
Какие у Dall-E 3 особенности
Больше не нужно учиться промптингу. Чтобы генерировать картинки в большинстве популярных нейросетей, например Midjourney или Stable Diffusion, нужно изучать их синтаксис. Это означает, что придется учиться составлять запросы по специальной формуле на английском языке и указывать неочевидные дополнительные параметры.
Dall-E 3 поддерживает русский язык и понимает естественную речь. С ней можно общаться так же, как вы разговариваете с людьми, и вносить правки, если вас не устраивает результат. К примеру, в нейросети сработает как запрос «нарисуй мне фиолетового анимешного кота», так и «фиолетовый кот, аниме» или даже «🐱💜».
Текстовая нейросеть прочитает ваш запрос и перепишет его так, чтобы алгоритм, который генерирует картинки, лучше понял, что вы хотите получить. Из-за этого генерации получаются разнообразнее, а один и тот же запрос может выдавать абсолютно разные результаты.
Ограничения
Запрещен любой оскорбительный контент. В Dall-E 3 нельзя генерировать сцены, содержащие насилие, ненависть или NSFW-контент.1792 × 1024. Запросы были как очень короткими и абстрактными (и тогда ChatGPT обогащал промпты (запросы), интерпретируя их «на свой вкус»), так и подробными с указанием деталей — чтобы проверить, как точно нейросеть их прорисует.Показываем, что получилось.
Как Dall-E 3 генерирует картинку
- Пользователь пишет запрос.
- ChatGPT переписывает этот запрос согласно своей встроенной инструкции.
- Dall-E 3 генерирует изображение на основе модифицированного запроса.
В общем на этом все. Очень просто и удобно, давайте же попробуем создать картины с помощью данной нейросети!
Генерация Dall-E
Мы попросили Dalle-3 сгенерировать изображения, сделанные будто бы на камеру Leica с соотношением сторон 16:10, и получили файлы PNG в разрешении 1792 × 1024. Запросы были как очень короткими и абстрактными (и тогда ChatGPT обогащал промпты (запросы), интерпретируя их «на свой вкус»), так и подробными с указанием деталей — чтобы проверить, как точно нейросеть их прорисует.Показываем, что получилось.