Инструменты от Nvidia для создания музыки и 3D-моделей, анонсы от Anthropic, новые генераторы видео: дайджест ИИ-обновлений за неделю
Коротко о том, что изменилось в сервисах для создания текстов, музыки, фото, видео и написания кода.
Фото
ИИ-сервис генерации видео Runway представил свою модель для создания изображений Frames. Работает по текстовому запросу. Доступ будут открывать постепенно пользователям Gen-3 Alpha. Модель входит в платную подписку стоимостью от $15 в месяц (чуть больше 1600 рублей по курсу ЦБ на 29 ноября 2024 года).
Luma AI запустила сервис генерации изображений и объединила его с генератором видео Dream Machine. В бесплатном плане доступно ограниченное число генераций, разрешение 720p, есть водяные знаки на фотографиях.
Разработчик ИИ-генератора изображений Stability AI выпустил набор инструментов редактирования Control Nets для модели Stable Diffusion 3.5 Large. Есть инструмент для улучшения качества изображений, создания картинок в заданных контурах и с учётом глубины композиции.
Видео
Runway представила функцию Expand Video, которая позволяет генерировать новые объекты за пределами исходного кадра. Можно прописать текстом, что добавить, или прикрепить изображения. Компания сообщает, что инструмент скоро будет доступен всем пользователям.
Стартап Lightricks выпустил генератор роликов LTX Video с открытым исходным кодом. Создаёт клипы по текстовым подсказкам и из других видео. Пока демоверсия есть на GitHub, Hugging Face и fal.ai.
3D-моделирование
Nvidia и Shutterstock представили генератор 3D-моделей Edify 3D из 2D-изображения или по текстовому промпту. Пользователи получают 50 бесплатных генераций единоразово.
Код
Anthropic анонсировала универсальную систему Model Context Protocol (MCP), которая позволит любой модели напрямую подключаться к сторонним сервисам и приложениям, извлекать и использовать данные и редактировать страницы .
Текст
Пользователи Claude получили возможность настраивать стиль ответов чат-бота. По умолчанию доступны: «Стандартный», «Сжатый», «С объяснениями» и «Формальный» для краткого изложения или изучения сложных тем. Claude также может создать стиль на основе текста-референса. Доступно в том числе пользователям без подписки.
Некоммерческая лаборатория Ai2 сооснователя Microsoft выпустила языковую модель OLMo 2 с открытым исходным кодом. Она поддерживает русский язык, работает с текстом и пишет код.
Alibaba выпустила модель с возможностью рассуждений QwQ-32B-Preview с открытым исходным кодом. Она может обрабатывать запросы на 32 тысячи слов, а в некоторых тестах превосходит модель o1 от OpenAI. Доступна по лицензии Apache 2.0 на Hugging Face.
Музыка и аудио
Nvidia представила генератор аудио Fugatto, который создаёт звуковые эффекты по текстовому описанию, например, может «заставить трубу лаять», сгенерировать голос с заданным акцентом, а также изолировать вокал от музыки или добавить в трек звучание барабанов.
Сервис «нейродубляжа» ElevenLabs представил функцию создания подкастов из текстовых файлов с двумя «ИИ-ведущими». Можно озвучивать тексты из PDF-файлов, электронных книг и документов с помощью ИИ-голосов на 32 языках, включая русский.