Google выпустила набор из 15 тысяч видео с разными предметами, чтобы обучать алгоритмы ML лучше распознавать 3D-объекты

Набор открыт для всех.

Google AI выпустила Objectron — набор коротких видеоклипов с объектами, снятыми с разных ракурсов. В компании считают, что он поможет исследователям в тренировке моделей машинного обучения — лучше распознавать 3D-объекты.

Objectron доступен на GitHub. Он содержит 15 тысяч размеченных видео и 4 млн размеченных изображений с метаданными, они сняты в десяти странах на пяти континентах.

Аннотации описывают положение, ориентацию и размеры каждого объекта. Клипы сопровождаются AR-метаданными: позицией камеры, облаком точек и характеристикой плоских поверхностей.

Набор включает видео с велосипедами, книгами, бутылками, фотоаппаратами, стульями и ноутбуками

«По сравнению с 2D-задачами понимание объёмных объектов остаётся сложной проблемой, поскольку больших наборов реальных данных просто нет», — объяснили в Google AI. Распознавание геометрии трёхмерных объектов — один из ключей для развития приложений в дополненной реальности, робототехнике, автономии и поиске изображений.

Вместе с набором Google AI поделилась решением для обнаружения 3D-объектов в четырёх категориях:

Обувь.
Стулья.
Кружки.
Фотоаппараты.

Модели обучаются с помощью данных Objectron и работают на MediaPipe, фреймворке Google с открытым исходным кодом для кросс-платформенных ML-решений.

Google также открыла конвейер для анализа данных во фреймворках Tensorflow, PyTorch и Jax. Подробные инструкции по загрузке данных и работе с ними опубликованы на GitHub.

#google #machinelearning #машинноеобучение