OpenAI снова взрывает рынок: GPT-4o теперь генерит картинки, делает баннеры, вставляет текст на фото
Только я подумала, что Google ещё надолго останется лидером в мире ИИ-редактирования изображений с их новым Gemini 2.0 Flash, как оказалось — рано радовались. Сегодня OpenAI представила GPT-4o с нативной генерацией изображений, и это просто вау. Теперь можно не только создавать картинки по описанию, но и редактировать уже готовое изображение, да ещё и комбинировать несколько в одну.
В отличие от прошлой версии генератора на базе DALL·E 3, новая функция встроена прямо в GPT-4o. Это «омнимодальная» модель — она умеет обрабатывать и создавать текст, звук и изображения.
Переход от отдельных инструментов к полной интеграции — это не просто апгрейд, а технологический скачок. Благодаря тесной связке между языком и визуалом, всё работает быстрее, точнее и мощнее.
Доступ к этой функции уже начали постепенно открывать для пользователей ChatGPT — и Plus, и Pro, и Team, и даже Free. Это началось в марте 2025 года. А чуть позже появится и для Enterprise, и для образования, и через API для разработчиков.
Как попробовать?
Есть два простых способа:
- ChatGPT — просто обнови десктопное приложение или зайди на сайт chatgpt.com. Опиши, что хочешь получить, и смотри, как картинка оживает.
- Sora — в левой панели сайта появился новый раздел Images. Там можно не только редактировать изображения, но и превращать их в видео. Ну круто же!
Примеры генерации изображений
Начнём с самой генерации. Честно говоря, раньше я почти не использовала ChatGPT для создания AI-фото — качество у DALL·E 3 было довольно посредственным, а соотношение сторон всё время застревало на 1:1. Но с недавним обновлением GPT-4o всё кардинально изменилось: качество стало значительно выше, и теперь можно настраивать формат изображения.
Я попробовала сама — и результат оказался не хуже, чем у примеров от самой OpenAI.
Промт: Создай фотореалистичное изображение фермерского рынка в Торонто в субботу летом 2006 года. Красивый день в конце июня, люди делают покупки и едят сэндвичи. В фокусе — молодая азиатская девушка в джинсовом комбинезоне, пьющая клубнично-банановый смузи. Всё остальное можно слегка размыть. Фото должно выглядеть так, как будто его сняли на цифровой фотоаппарат 2006 года — с временной меткой, как на распечатанном снимке. Соотношение сторон — 3:2.
Посмотри, насколько детально и физически точно прорисован главный персонаж. Даже люди на заднем плане, хоть и размыты, всё равно выглядят реалистично — без тех странных «расплывчатых» артефактов, которые раньше были нормой.
Теперь давай быстро сравним результаты от GPT-4o и Flux 1.1 Pro Ultra — это даст наглядное представление, кто на что способен.
Промт: Создай откровенное фото в стиле Polaroid, на котором четверо друзей из разных культур, всем по 20 с небольшим, сидят в тёмном, атмосферном баре. Жёсткая прямая вспышка создаёт резкие тени и придаёт кадру переэкспонированный, винтажный эффект моментального снимка. Цвета — чуть приглушённые, с ностальгическим вайбом вечеринок начала 2000-х. Весь образ — лёгкий «эмо»-хаос. Без рамок, логотипов и вывесок. На стене позади — немного граффити. Качество изображения должно быть очень чётким и детализированным, почти без зернистости. Энергетика — дикая и весёлая: кто-то кривляется, кто-то изображает серьёзность, а один из них обхватил друга в шуточный хедлок. У всех закрыты рты.
Результат от GPT-4o получился настолько живой, что кажется, будто ты сама оказалась на этой шумной вечеринке. Очень тонко передана атмосфера — свет, текстуры, эмоции. А главное — никаких типичных для AI искажений лиц или рук. Всё на месте.
Что выбрать — дело вкуса. Обе картинки получились крутыми, но если быть честной, Flux лучше передал эффект Polaroid: зернистость, свет, лёгкая «разбросанность» композиции — всё это передаёт ту самую эмоцию винтажной моментальной фотографии. ChatGPT справился достойно, но чуть менее выразительно именно в плане атмосферы.
Отображение текста в изображениях
Одно из реально заметных улучшений в GPT-4o — это умение корректно отображать текст в изображениях. Раньше с этим были сложности: буквы расплывались, текст выглядел неестественно или был нечитаемым. Теперь — совсем другое дело.
Промт: На фоне — фотография стильной современной скульптуры, которая плавно переходит с левой стороны из эскиза в проволочном каркасе в полностью фотореалистичную версию справа. В верхнем левом углу, примерно на треть вниз — надпись “Generative AI Publication” белым шрифтом без засечек. В нижнем правом углу, на треть вверх — “Follow us on VC”, тем же белым шрифтом. Соотношение сторон изображения — 16:9.
GPT-4o отлично справляется с размещением текста, держит композицию, не съедает буквы и не превращает слова в бессмысленный набор символов — что раньше было настоящей болью.
Да, местами текст всё ещё может обрезаться или вести себя странно, но давай по-честному — это уже почти полноценный in-house дизайнер, встроенный в ChatGPT. Уровень, правда, впечатляет.
Улучшенное отображение текста — это не просто визуальный бонус. Это огромный шаг вперёд по сравнению с предыдущими моделями. И самое главное — теперь с этим можно делать реально полезные штуки:
- создавать красивые, читаемые меню для ресторанов,
- оформлять приглашения с точной формулировкой и без сюрпризов,
- делать инструкции и схемы с чёткими подписями,
- и даже быстро собирать презентации или инфографику без обращения к дизайнеру.
По сути, теперь тебе не нужно открывать Figma или Canva — просто открываешь ChatGPT и пишешь, что хочешь видеть.
Как использовать свои фото?
Теперь можно не просто генерировать картинки, а создавать полноценные рекламные макеты за один промпт — как это сделал Jacob Posel в X (да-да, прямо в одном кадре!). Кто теперь скажет, что без дизайнера никуда?
ChatGPT с GPT-4o реально справляется с задачами, на которые раньше уходили часы работы в Photoshop или Figma:
- аккуратно размещает объект,
- добавляет надписи,
- выдерживает композицию и стиль,
- и даже передаёт настроение бренда.
Ты можешь за пару минут создать визуал для продукта, поста в соцсетях или баннера. Главное — чётко описать, чего ты хочешь, и всё, магия началась.
Он пошёл ещё дальше — загрузил две разные фотографии и попросил ChatGPT объединить элементы с обеих, чтобы получился эффектный рекламный макет. И, знаешь что? У него получилось просто шикарно.
Я тоже попробовала — и это действительно работает. ChatGPT не просто склеивает изображения, он осмысленно объединяет ключевые детали, сохраняет стиль, добавляет нужные акценты — и в итоге получается дизайн, который вполне можно использовать в реальной рекламе. И всё это — без фотошопа, правок или долгих согласований.
Теперь возможно:
Взять фото продукта и атмосферный фон, загрузить их в ChatGPT,
описать, чего я хочу и получить готовую визуализацию, как будто её делала команда дизайнеров.
Что ещё я увидела в обновлениях?
Многошаговая генерация. Поскольку генерация изображений теперь нативно встроена в GPT-4o, модель способна последовательно развивать идеи, сохраняя логику и связность между запросами в одном чате. Например, если ты создаёшь персонажа для видеоигры — внешний вид будет оставаться последовательным, даже если ты будешь менять позы, детали одежды или мимику шаг за шагом. Это удобно, когда хочется «вылепить» идеальный образ через серию уточнений.
Точное следование инструкциям. GPT-4o стала намного лучше понимать и точно выполнять сложные промпты. Если раньше модели начинали путаться, когда в запросе упоминалось 5–8 объектов, то теперь GPT-4o справляется с 10–20 элементами в одной сцене. Это открывает простор для более детализированных, многослойных визуалов — от сложных инфографик до сюжетных иллюстраций с множеством персонажей и объектов.
Обучение на контексте. GPT-4o умеет анализировать загруженные изображения и использовать их как визуальные референсы в последующих генерациях. То есть ты можешь загрузить картинку, и модель поймёт, что тебе нравится — стиль, настроение, композицию — и учтёт это в новых работах. Это особенно удобно, если ты работаешь с брендом и хочешь, чтобы визуалы были в одном стиле или соответствовали конкретному эстетическому запросу.