Meta представила Emu - ИИ-генератор изображений
Компания Meta* выпустила собственную модель искусственного интеллекта под названием EMU, что расшифровывается как Expressive Media Universe.
Если вы еще не знаете, Emu названа в честь животного, как и предыдущая языковая модель Meta - Llama.
Генеральный директор Meta Марк Цукерберг анонсировал Emu во время конференции Meta Connect 2023.
Что такое Emu?
В основе Emu лежит техника искусственного интеллекта, называемая "диффузионными моделями". Диффузионные модели работают, начиная со случайного шума и постепенно изменяя его до образования целостного изображения.
В частности, Emu использует "латентную диффузионную модель", то есть сначала кодирует текстовую подсказку в латентное представление, а затем проходит процесс диффузии для создания изображения.
Сначала Emu был предварительно обучен на более чем 1 млрд. пар "изображение - текст", чтобы получить общие знания о переводе текста в изображение. Затем он был отлажен на небольшом наборе эстетически привлекательных изображений для улучшения визуального качества результатов.
Emu - это быстро
По словам Цукерберга, для создания изображения с помощью Emu требуется "всего 5 секунд", хотя он и пошутил, что для его детей это все равно недостаточно быстро.
Если утверждение о 5-секундной генерации изображения соответствует действительности, то Emu значительно быстрее других генераторов изображений, таких как Midjourney или Dall-E 3, в которых процесс генерации занимает от 15 до 30 секунд.
Изображения, полученные с помощью Emu, визуально привлекательные
Компания Meta сравнила Emu с современной моделью SDXL1.0 и обнаружила, что Emu предпочтительнее в 68,4% случаев по визуальной привлекательности в стандартном бенчмарке PartiPrompts и в 71,3% в бенчмарке Open User Input.
Просто взгляните на ранние превью изображений, созданных Emu. Они сравнимы с качеством Midjourney.
Примеры изображений
Промпт: A cool orange cat wearing sunglasses playing a guitar with a group of dancing bananas
Промпт: A traditional tea house in a tranquil garden with blooming cherry blossom trees
Промпт: The oil painting shows a cow standing near a tree with red leaves
Промпт: A bread, an apple, and a knife on a table
Как получить доступ к Emu
Специального сайта для генерации изображений по текстовым подсказкам пока нет.
Однако Emu уже интегрируется и сочетается с другими моделями meta AI для создания ориентированных на пользователя функций в социальных сетях и приложениях для обмена сообщениями, таких как Instagram.
Если вы хотите узнать больше об Emu, ознакомьтесь с документом, который они выпустили в сентябре 2023 года.
В целом я рад, что компания Meta наконец-то присоединилась к числу тех, кто занимается созданием изображений с помощью искусственного интеллекта. Первые представленные изображения выглядят весьма впечатляюще, не уступая таким лидерам в этой области, как DALL-E и Midjourney.
Хотя подробностей пока мало, заявленное Emu 5-секундное время генерации изображений делает его одной из самых быстрых моделей. Я с нетерпением жду возможности испытать его!
Будет интересно узнать, как Meta планирует запустить Emu. Будет ли это платная услуга, как DALL-E? Бесплатным и с открытым исходным кодом, как SDXL? Или что-то совсем другое? Мне не терпится узнать больше о ценах и доступности.
Ясно одно - сфера искусственного интеллекта накаляется. С такими технологическими гигантами, как Meta, мы можем ожидать быстрого улучшения качества, скорости и доступа. Как энтузиаст ИИ и создатель контента, я с нетерпением жду появления новых разработок.
Еще больше полезностей про нейросети - в моем хобби-блоге про нейросети в Телеграм.
*Деятельность компании Meta запрещена на территории Российской Федерации.
Оригинал на английском - здесь.