Генеративный дизайн для вашей бабушки (Google Gemini)

Бабушка оценит: галактическая выпечка
Бабушка оценит: галактическая выпечка

Надоело пользоваться VPN, платными подписками, скачивать предобученные модели или обучать родственников подписываться на рекламные каналы в телеграм, чтобы получить доступ к сервисам по генерации изображений с помощью нейронок?

Мне тоже, поэтому я обратил внимание на рассылку от Google:

новость (1) Bard умеет генерировать картинки; новость (2) Bard - это теперь Gemini
новость (1) Bard умеет генерировать картинки; новость (2) Bard - это теперь Gemini

Переводя на русский:

  • экспериментальный интерфейс Bard (bard.google.com) официально переехал под распиаренный бренд Google Gemini (gemini.google.com). Для тех кто пропустил декабрь 2023-го или до сих пор не отошел от новогодних праздников, напомню: Google Gemini - это искусственный интеллект на максималках, который обещает за вас код писать, изображения генерировать и даже анализировать видеоряд.

Как говорится, обещать - не значит жениться. Включаем критическое мышление, тестируем, анализируем, делаем собственные выводы. Обещают довольно много, но, конкретно для меня, обещанные кейсы по разработке ПО пока работают плохо. Выделил слово "пока", поскольку обучение нейронок происходит буквально круглые сутки и питать иллюзии, что они не поумнеют, - глупо.

Да, FAANG уже не тот, да, Google уже не торт (в роли догоняющего). Но данный релиз и удобство пользования публичного интерфейса заслуживают того, чтобы о нем рассказали. Переходим к практике.

Подводные камни и лайфхаки использования

Основная претензия, которую может отметить ваша бабушка: "я не говорю на английском, а он ругается на мои запросы на русском языке (говорит, что не умеет рисовать)":

Генеративный дизайн для вашей бабушки (Google Gemini)

Казалось бы: ты чё, пёс?! Ты ведь только что мог нарисовать изображение, если тебя попросили на культурном английском:

Генеративный дизайн для вашей бабушки (Google Gemini)

Несмотря на то, что эти искусственные нейронные помогаторы используют наши буквы, разговаривают они все равно на собственном языке (или диалекте нам похожего). Это сравни следующей истории: латиницу используют не один десяток стран в мире, но все их языки разные. Поэтому фраза "не умею создавать изображения", не означает что нейронка действительно не умеет создавать изображения. Ее просто нужно правильно попросить (подобрать фразы на ее языке).

По опыту пользования разными нейронными помогаторами, я выучил, что фраза "сделай красиво" (по отношению к изображению) на их языке может звучать как "photorealistic, raytracing, Leica 50mm". Подбор правильных слов для общения с нейронками уже называют отдельным термином "prompt engineering".

Prompt engineering для нашей нейронки, чтобы она рисовала изображения для наших запросов на русском языке разделится на 2 шага: (1) перевод (этой же нейронкой!) с русского на английский и (2) просьбой отрисовать то, что она сейчас сама написала. Давайте дружно по шагам, со всеми деталями:

Шаг 1: Написать фразу "ты чё, пёс?!" (зачеркнуто) "translate into English:" + "Нарисуй изображения по следующему описанию:" + ваш запрос, который вам хочется отрисовать:

Генеративный дизайн для вашей бабушки (Google Gemini)

Шаг 2: взять полученный перевод на английский язык и вставить как новый запрос, чтобы получить долгожданные изображения:

Генеративный дизайн для вашей бабушки (Google Gemini)

Нюанс (подводный камень 2): после шага 1 внизу может появиться много лишнего. Например, рекомендации самой нейронки, что уведет в сторону от поставленного ТЗ:

(перевод) Вот еще несколько дополнительных деталей, которые вы можете добавить в ваши изображения: ... (перечисление)
(перевод) Вот еще несколько дополнительных деталей, которые вы можете добавить в ваши изображения: ... (перечисление)

Их вставлять в запрос на шаге 2 не стоит, поскольку может получиться совсем не то, что вы спрашивали. Но это уже потребует навыков чтения на западном языке (оное бабушка может и не оценить). Этот аспект нейронных сетей относится к другой известной проблеме - "галлюцинации". Нейронка придумывает или делает то, о чем ее не просили. Либо она не понимает, что ее попросили сделать (наш язык для нее тоже не родной), либо у нее проблемы с дисциплиной, но хорошая фантазия. Во втором случае, явно не стоить надеяться на радужное и справедливое управление миром, где во главе вселенной будут железные банки, а по небу будут летать пони.

Лайфхак 2: чтобы вернуть нейронного помогатора в нужное нам русло, для сверки перевода можно закинуться полотном полученного текста на английском языке в Google Translate, чтобы понять какие куски текста были лишние и смело их удалить.

Last but not least (замечание): для пользования сервисом вам нужен Google аккаунт. Кажется, он есть почти у каждого пользователя интернета. А для вашей бабушки вы можете завести его самостоятельно.

Вместо заключения:

Пусть тот, кто без Google-аккаунта, первым бросит в меня своим iPhone'ом

математик-программист (а мне Android удобнее ;))

Резюме или план действий

По шагам:

  1. Зарегистрироваться и/или войти в Google-аккаунт;
  2. Перейти в Google Gemini (если первый раз, то принять соглашения Terms & Privacy);
  3. Попросить перевести запрос с русского на английский ("translate into English:" + "Нарисуй изображения по следующему описанию:" + ваш запрос);
  4. (по необходимости) свериться с Google Translate, чтобы выкинуть галлюцинации;
  5. Отправить запрос в Gemini для отрисовки изображений по описанию на английском;
  6. PROFIT

Присылайте в комментариях изображения понравившихся галактических конкурсов и лайфхаки, которыми сможет воспользоваться даже бабушка.

С юмором о полезном и интересном: про жизнь и работу в разных странах, про книги и интересные наблюдения. Личный блог:

11
Начать дискуссию