Для маленьких датасетов обычно можно собирать и размечать данные вручную; однако для обучения во многих сложных задачах машинного обучения требуются огромные датасеты. Например, модели, обучаемые для беспилотного вождения, требуют больших объёмов данных, собираемых с датчиков, прикреплённых к автомобилям или дронам. Этот процесс сбора данных очень медленный, он может занимать месяцы или даже годы. После сбора сырых данных их должны вручную аннотировать живые люди, что тоже долго и дорого. Более того, нет гарантии, что полученные размеченные данные принесут пользу в качестве данных обучения, поскольку они могут не содержать примеров, заполняющих текущие пробелы в знаниях модели.