На самом деле, текущий кейс сильно слож с задачей от Aliexpress, которую мы описывали ранее. Снятое качественное изображение товара надо определить на фотографии, вырезать целиком и вставить в нужный нам фон с учетом его позиции, света и других важных факторов, . В целом, это вписывается в задачу обработки rich-контента для коммерческих целей.
Вы пишете, что модель может учитывать контекст объекта. Это вручную настраивается или полностью автоматизировано?