Данные — это часто не только изображения, но и тексты — как в случае с чат-ботами. Текстовой модели для работы нужны тексты. Важно учитывать, что часто тексты, которые легко понимают люди, машиной обрабатываются плохо. Например, если делаешь чат-бота, который должен консультировать пользователей по содержимому инструкций, то для парсинга ты берешь страницы, на которых люди писали инструкции для таких же людей. Часто инструкции представляют собой большие тексты, которые бьются на подразделы, и в этих подразделах содержатся разные сторонние мысли. Data scientist может попросить технических писателей или толокеров (люди, которые за вознаграждение выполняют задания по тестированию и улучшению системы на краудфандинговой площадке «Яндекс.Толока») переписать эти тексты по-другому — понятно для машины. Ключевая мысль должна прослеживаться внутри каждого куска, потому что иначе получаются «мусорные» ответы.