Не всем компонентам в системе голосового взаимодействия требуются огромные массивы обучающих данных. Например, для TTS требуется всего лишь несколько десятков часов обучающих данных с одним голосом. Некоторые другие компоненты, например, STT и NLU, требуют для достижения высокой точности огромного количества размеченных данных. Например, в статье «Deep Speech 2: End-to-End Speech Recognition in English and Mandarin» [ссылка] приводится предположение о том, что для создания качественной системы STT требуется не менее 10 тысяч часов транскрибированных данных речи. Эти транскрибированные данные не только являются текстовой записью того, что произнёс говорящий, но и обозначают шум (например, свист, пение птиц и так далее) и звуки окружающей среды (например, будильники, автомобили, закрывание дверей и так далее) в структурированной и подходящей для ML форме. Поэтому людям нужно вручную транскрибировать такие звуки в письменный текст, что позволяет добавлять информацию о звуках с метками (например, «речь», «шум», «смех» и так далее) и разбивать аудио на категории для более глубокого понимания данных. [Ссылка]