В некоторых случаях найти ненужные данные довольно легко — скорее всего, вам не нужна техническая и системная информация, и ее можно убрать. Но вот определить лишнее среди информации, которая прямо относится к предмету, сложнее. Существует риск, что из-за удаленных данных аналитики могут пропустить что-то важное.
При 95% от точности - погрешность получается небольшая, а какая выйдет от 70%? И можно ли как-то повысить точность получаемых данных?
Речь идёт о точности результатов использования данных, а не точности получаемых данных. Если считается, что даже получаемые данные верны только в 70%, то итоговая точность моделирования будет очень низкой. Лучший способ повысить точность получаемых данных – ввести строгие определения данных и стандартизировать механизм их получения.
Слышала только про воронку продаж и найма. У воронки данных есть какое-нибудь другое название?
Нет, «воронка» в данном случае, как с продажами или наймом – метафора, описывающая ситуацию, когда в начале процесса в нём больше элементов чем в конце, в результате график процесса напоминает воронку. Так происходит в процессе найма, продаж, и в случае с обработкой данных для конкретной цели.
Подскажите, пожалуйста, а с вашей точки зрения что эффективнее - единая воронка с широким общим потоком или разделение на несколько более мелких воронок с меньшим объемом атрибутов на каждую воронку?
Всё зависит от сложности бизнес-процессов, которые решаются с помощью данных и взаимосвязей между данными. Например, если все данные взаимосвязаны между собой или необходимы для решения одной задачи, лучше, если воронка одна. А если для поддержания разных бизнес-процессов компании необходимы несвязанные между собой данные, например, данные о клиентах, данные о сотрудниках и данные об арендуемых помещениях, то с такими данными будет проще работать с помощью нескольких воронок.
Вообще, тема достаточно непростая. В программировании надо думать итерациями (выбираем по одному то, что подходит), а в работе с базами данных надо наоборот, думать множествами (сваливаем всё в кучу, а потом выбрасываем то, что не подходит). Если этого не сделать — мозг начинает порождать сонмы сто лет ненужных коррелированных подзапросов, в которых чёрт ногу сломит.