4 основных принципа подготовки данных для ИИ 📊 от Gartner
Откажитесь от моделей и кодов в пользу подхода, ориентированного на данные, для подготовки к внедрению ИИ. ИИ все больше полагается на неструктурированные входные данные, такие как текст, изображения и видео, а не только на структурированные форматы данных. Этот сдвиг, обусловлен технологиями генеративного ИИ GenAI.
Инструменты, инсайты ИИ для бизнеса в моем тг-канале 😎, приглашаю
В отличие от традиционных методов в ИИ, которые отдают приоритет уточнению алгоритмов или улучшению кода, центрированный на данных подход фокусируется на итеративном улучшении данных для оптимизации систем ИИ. Здесь модель и код остаются статичными, а данные постоянно улучшаются.
Для решения сложных задач неструктурированных данных современные решения также включают в себя дополнения ИИ, такие как помощники по генерации кода и возможности low-code/no-code. Эти инновации оптимизируют процессы подготовки данных и позволяют организациям эффективно подпитывать передовые системы ИИ.
4 главные технологии для подготовки данных, готовых к использованию ИИ:
1. Исследовательский анализ данных и подготовка данных
Подготовка данных включает в себя разведывательный анализ данных (EDA), очистку и преобразование для создания высококачественных наборов данных для извлечения признаков и проектирования.
Шаги по подготовке данных для использования ИИ:
- Проведите EDA для оценки формы данных, качества (например, дубликатов, пропущенных значений) и характеристик.
- Предварительная обработка данных для традиционного ИИ включает очистку, формирование, обработку пропущенных значений и повышение качества данных перед извлечением признаков.
- Предварительная обработка данных для GenAI с использованием таких рабочих процессов, как генерация дополненных поиском данных (RAG), которые включают очистку, разбиение на фрагменты, суммирование, генерацию внедрений и подключение к выходным адресатам.
2. Особенности инжиниринга
Проектирование признаков подразумевает создание признаков, которые добавляют смысл наборам данных, улучшая производительность и точность модели. Этот процесс является итеративным и ресурсоемким, но он необходим для готовности ИИ.
Шаги по проектированию функций:
- Создание признаков подразумевает использование доступных данных для создания признаков посредством разделения, биннинга и прямого кодирования.
- Преобразование признаков фокусируется на отсутствующих признаках, которые заменяются, если они не требуются, путем создания декартового произведения признаков и построения признаков, специфичных для предметной области.
- Извлечение признаков использует методы снижения размерности для уменьшения объема обрабатываемых данных, что снижает потребность в дополнительных вычислительных ресурсах.
- Отбор признаков подразумевает выбор тщательно отобранного подмножества признаков для объединения наиболее релевантных признаков для обучения модели.
3. Маркировка и аннотация данных
Маркировка данных подразумевает добавление метаданных к неструктурированным данным для добавления смысла и контекста для разработки ИИ. Ручная маркировка, наиболее трудоемкий вариант, требует исключительной точности, предметной и технической экспертизы, а также расходов. Она также подвержена повышенному риску: аутсорсинг вносит вероятность того, что внутренние конфиденциальные данные будут раскрыты, и человеческая ошибка неизбежна.
Автоматизированная маркировка и аннотация данных ускоряет процесс маркировки, повышает его качество и снижает стоимость.
- Активное обучение использует контролируемое обучение для создания высококачественных информационных меток-прокси и продолжает маркировать немаркированные данные посредством интерактивного процесса.
- Трансферное обучение использует предварительно обученную модель, обученную на аналогичных данных, для маркировки связанных немаркированных данных.
- Программная маркировка использует функции маркировки для фиксации знаний в виде кода для маркировки данных.
- Визуальные подсказки используют предварительно обученные модели зрения для сегментации областей на изображении для маркировки.
4. Увеличение объема данных
Дополнение данных используется для конкретизации данных, которые не имеют нужных атрибутов или недоступны из-за защиты конфиденциальности. Реальные данные, которые имеют слишком мало разнообразия или объема для обучения ИИ, также могут выиграть от дополнения.
Синтетические данные , форма GenAI, сохраняют статистические и поведенческие аспекты реальных наборов данных. Они могут быть получены посредством статистической выборки из реальных данных, семантических подходов, генеративно-состязательных сетей (GAM) или больших языковых моделей (LLM). Используемые в симуляциях и компьютерном моделировании, синтетические данные являются ключом к развитию ИИ. Прогнозируется, что к 2030 году они превзойдут реальные данные в моделях ИИ.
Обогащение данных подразумевает использование внешних данных, специфичных для домена, для дополнения внутренних данных с целью удовлетворения случаев использования ИИ, требующих тщательно отобранных наборов данных. Инструменты обогащения данных могут собирать, организовывать, очищать и объединять сторонние данные (например, из Интернета) из разрозненных источников.
При оценке решений следует учитывать следующее:
- Синтетические данные могут не обладать уровнем детализации, необходимым для имитации реальных данных.
- Дополнение данных — это новая технология с низкими показателями внедрения на предприятиях. При отсутствии готовых решений создание синтетических данных обходится дорого и требует высококвалифицированных специалистов по данным с опытом глубокого обучения.