ml_mdm: Набор диффузионных моделей Matryoshka от Apple.
Matryoshka (MDM) - сквозная структура для синтеза изображений и видео высокого разрешения. Вместо обучения отдельных моделей использован многомасштабный процесс совместной диффузии, в котором модели меньшего масштаба вложены в модели большего масштаба. Такая структура вложенности не только облегчает обмен свойствами между масштабами, но и обеспечивает постепенный рост обучаемой архитектуры.
ml_mdm - Python-фреймворк для синтеза изображений и видео c с помощью набора pre-trained моделей Matryoshka.
Codebase фреймворка:
🟠ml_mdm.models - реализация core-модели;
🟠ml_mdm.diffusion - диффузионный пайплайн;
🟠ml_mdm.config - подключение конфигурационных классов данных к моделям, конвейерам с помощью simple parsing (надстройка к argparse);
🟠ml_mdm.clis - все инструменты cli проекта.
Для тестирования инференса, оценки на датасете CC12M и обучении на собственных наборах изображений представлены 3 pre-trained модели, построенные на архитектурах U-Net и Nested U-Nets, обученные на 50 млн. пар "текст-изображение" с Flickr:
🟢vis_model_64x64;
🟢vis_model_256x256;
🟢vis_model_1024x1024.
▶Локальный запуск:
Зависимости для установки по умолчанию в файле pyproject.toml выбраны таким образом, чтобы можно было установить библиотеку даже на CPU-only систему.
Running Test Cases:
> pytest # will run all test cases - including ones that require a gpu
> pytest -m "not gpu" # run test cases that can work with just cpu
Download the models:
curl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr64/vis_model.pth --output vis_model_64x64.pth
curl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr256/vis_model.pth --output vis_model_256x256.pth
curl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr1024/vis_model.pth --output vis_model_1024x1024.pth
Launch Web Demo:
torchrun --standalone --nproc_per_node=1 ml_mdm/clis/generate_sample.py --port 19999
⚠ В Issues репозитория есть обращение о некорректной команде запуска Web Demo. Следите за обновлением тикета и коммитами.
📌Лицензирование : Apple Inc.
🖥Github [ Stars: 166 | Issues: 3 | Forks: 6]