InstantCharacter — свежий open-source конкурент ChatGPT-4o
Как вы знаете, ChatGPT-4o умеет генерировать изображения 🎨НО без подписки возможность генерации img2img доступна в ограниченном количестве.
Поэтому давайте попробуем бесплатно повторить популярный тренд — создание своих картинок в стиле Ghibli(японская анимация)! ✨
Для этого мы воспользуемся свежим open-source решением от 16 апреля 2025 года, которое по качеству генерации сопоставимо с ChatGPT-4o: InstantCharacter: Personalize Any Characters with a Scalable Diffusion Transformer Framework 🚀
🔗 Статья о проекте:📚 Читать на arXiv
🔗 Демо на Huggingface (бесплатно):🚀 Попробовать InstantCharacter
В чём суть подхода:
- Передача стиля через cross-attention (IP-Adapter) отлично работала с U-Net архитектурой,но для современных моделей на базе DiT (например, FLUX.1) с числом параметров ~12B — она уже не справляется из-за размеров моделей.
- Авторы отказались от идеи использовать адаптеры и аккуратно изменили архитектуру DiT и формат обучения,чтобы модель сразу могла выдавать качественные reference-генерации без костылей.
- Вместо классического CLIP, который плохо улавливал детали на изображениях, перешли на связку SigLip + DINOv2 как на более мощные энкодеры.
Как сделать самому такие картинки в демон HuggingFace
1) Прикрепляем свою фотку
2) Выбираем вот такой стиль
Моя фотка
Промпт - A boy is riding a bike in snow
Результат:
Если хотите получать больше инсайтов о будущем технологий, нейросетях и ИИ — подписывайтесь на мой Telegram-канал, YouTube-канал и заходите на мой сайт.Там я делюсь практическими материалами, обучением и примерами реального применения искусственного интеллекта!