Apple выпустила сервис MGIE для редактирования изображений
Инновационное решение под названием «MGIE» позволяет редактировать изображения с помощью простых текстовых инструкций.
Доступно как редактирование картинки целиком, так и ее отдельной области. Можно менять яркость, резкость, применять художественные эффекты или менять размер изображения.
MGIE— MLLM-Guided Image Editing (управляемое редактирование изображений), модель на базе искусственного интеллекта.
MGIE — результат сотрудничества Apple и исследователей из Калифорнийского университета, Санта-Барбара.
Как это работает?
MGIE прост в использовании и гибок в настройке. Нужно дать обычную текстовую инструкцию, как если бы объясняли другому человеку. А MGIE в ответ будет генерировать изображения, вместе с четкими производными инструкциями пользователю. Пользователи также могут оставить отзыв MGIE или запросить изменения.
В основе MGIE лежат мощные модели ИИ, которые могут обрабатывать как текст (текстовые инструкции пользователей), так и изображения. Запросы пользователей модель переводит в понятный для машины язык.
Например, запрос «сделать небо более синим» MGIE переведет в команду «увеличить насыщенность области неба на 20%».
Что может делать MGIE?
MGIE может обрабатывать широкий спектр сценариев редактирования: от настройки цвета до сложных манипуляций с объектами:
Редактирование на основе инструкций: MGIE может создавать краткие и понятные инструкции, которые эффективно направляют процесс редактирования. Это не только улучшает качество редактирования, но и улучшает общий пользовательский опыт.
Модификация в стиле Photoshop: MGIE может выполнять стандартное редактирование в стиле Photoshop: обрезка, изменение размера, вращение, переворачивание, добавление фильтров. Модель также может применять более сложные изменения, такие как изменение фона, добавление или удаление объектов и смешивание изображений.
Глобальная оптимизация фотографий: MGIE может оптимизировать качество фотографии: менять яркость, контрастность, резкость или цветовой баланс. Модель также может применять художественные эффекты - рисование и карикатура.
Локальное редактирование: MGIE может редактировать определенные области или объекты изображения, например лица, глаза, волосы, одежду и аксессуары. Модель также может изменять атрибуты этих областей или объектов, такие как форма, размер, цвет, текстура и стиль.
Как можно попробовать MGIE?
MGIE доступен как проект с открытым исходным кодом на GitHub, поэтому модель можно интегрировать в приложения или платформы, где требуется редактирование изображений.
Пользователи могут опробовать MGIE онлайн с помощью веб-демо на Hugging Face Spaces.
Почему MGIE так важен?
1) MGIE — это прорыв в области редактирования изображений на базе простых инструкций. Это само по себе является сложной задачей для ИИ: человеческие инструкции могут быть слишком краткими и непонятными, чтобы современные методы могли их уловить и следовать им.
2) Сложная техническая проблема, которую решает MGIE, - это исключение галлюцинаций, которые возникают в работе мультимодальных языковых моделей при несогласованности элементов контента (например, когда текст не соотносится с картинкой).
Мультимодальные большие языковые модели (multimodal LLMs) позволяют работать не только с текстом, но и с другими видами контента: изображения, видео, аудио и другие. Мультимодальные языковые содержат возможности, которые недоступны при использовании только текстовых моделей.
3) MGIE — это не только исследовательское достижение, но и практический и полезный инструмент для различных сценариев. MGIE поможет пользователям создавать, изменять и оптимизировать изображения для личных или профессиональных целей, даст возможность выражать свои идеи и эмоции через изображения и вдохновлять их на творчество.
4) Наконец, MGIE демонстрирует потенциал мультимодальных языковых моделей для работы с изображениями. Хотя MGIE представляет собой серьезный прорыв, впереди еще много работы по улучшению мультимодальных систем ИИ. Темпы прогресса в этой области ускоряются.