Толстой в наушниках и Гагарин с Армстронгом на Луне: что может новая модель для генерации изображений в чат-боте Grok
Протестировали некоторые функции и собрали примеры генераций.
- 9 декабря 2024 года xAI представила новую модель для генерации изображений под кодовым названием Aurora в чат-боте Grok, который работает внутри социальной сети X. Создать изображение можно бесплатно. Модель одновременно выдаёт четыре варианта картинки.
Скринкаст vc.ru
- В Grok отсутствуют ограничения на генерацию реальных личностей, как, например, в нейросети Midjourney, поэтому он может создавать изображения политиков и знаменитостей. В датасете есть даже Виктор Цой и Лев Толстой.
- Модель может выполнить запрос с конкретными деталями (в том числе на русском), а потом скорректировать изображение.
Запрос: «Нарисуй русского писателя Льва Толстого, который слушает музыку в белых AirPods»
Запрос: «Замени одежду Толстого на красную толстовку»
- Можно попросить добавить на фотографию других персонажей.
Запрос: Draw cosmonaut Yuri Gagarin / Нарисуй космонавта Юрия Гагарина
Запрос: Add Neil Armstrong standing next to Gagarin and smiling / Добавь Нила Армстронга, который стоит рядом с Гагариным и улыбается
- Grok хуже справился с изображением людей на общем плане. Пример генерации, где заметны искажённые лица и непрорисованные пальцы.
Запрос: Draw Wide shot of Disneyland with lots of happy kids running around and eating ice cream / Общий план Диснейленда, много счастливых детей, которые бегают и едят мороженое
- Нейросеть может сгенерировать надпись на изображении, но не так чётко, как другие модели, в том числе Flux.
- При попытке добавить надпись на русском, нейросеть сначала убрала замок Диснейленда.
Запрос: Replace the word "Disneyland" with sign "Остров развлечений" / Замени слово "Диснейленд" на надпись "Остров развлечений"
Запрос: Add the pink Disneyland castle in the background, keep the sign "Остров развлечений" /«Добавь розовый замок Диснейленда на фоне и оставь надпись "Остров развлечений"»
- Grok также можно попросить создать изображения в 2D-стилях, например в аниме.
Запрос: Draw a girl sitting at a table in a cafe, anime style / Нарисуйте девушку, сидящую за столиком в кафе, стиль аниме
Примеры генераций пользователей сети X с помощью Grok
Джон Леннон и Пол Маккартни. Источник: Rock History
Источник: Pé Ngốk Ngếk
Камала Харрис уводит Дональда Трампа. Источник: Anonymous
Изображения Grok, анимированные в других сервисах. Источник: Cosmic Madness
- Aurora — это авторегрессионная модель, которая генерирует изображения из готовых фрагментов, в отличие от диффузионных моделей, которые создают изображения из случайного шума.
Генерация диффузионной модели. Источник: Nvidia
- В начале декабря 2024 года X начала открывать доступ к Grok пользователям без платных подписок. Максимальное количество запросов — десять в два часа. Дальше понадобится Premium.
15 комментариев