Google выпустила набор из 15 тысяч видео с разными предметами, чтобы обучать алгоритмы ML лучше распознавать 3D-объекты
Набор открыт для всех.
Objectron доступен на GitHub. Он содержит 15 тысяч размеченных видео и 4 млн размеченных изображений с метаданными, они сняты в десяти странах на пяти континентах.
Аннотации описывают положение, ориентацию и размеры каждого объекта. Клипы сопровождаются AR-метаданными: позицией камеры, облаком точек и характеристикой плоских поверхностей.
«По сравнению с 2D-задачами понимание объёмных объектов остаётся сложной проблемой, поскольку больших наборов реальных данных просто нет», — объяснили в Google AI. Распознавание геометрии трёхмерных объектов — один из ключей для развития приложений в дополненной реальности, робототехнике, автономии и поиске изображений.
Вместе с набором Google AI поделилась решением для обнаружения 3D-объектов в четырёх категориях:
- Обувь.
- Стулья.
- Кружки.
- Фотоаппараты.
Модели обучаются с помощью данных Objectron и работают на MediaPipe, фреймворке Google с открытым исходным кодом для кросс-платформенных ML-решений.
Google также открыла конвейер для анализа данных во фреймворках Tensorflow, PyTorch и Jax. Подробные инструкции по загрузке данных и работе с ними опубликованы на GitHub.