Как нейросеть GPT-4 модерирует контент?

OpenAI используют GPT-4 для разработки политики в отношении контента и принятия решений по модерации контента, что обеспечивает более последовательную маркировку, более быстрый цикл обратной связи для уточнения политики и меньшее участие модераторов-людей.

Модерация контента играет решающую роль в поддержании работоспособности цифровых платформ. Система модерации контента с использованием GPT-4 значительно ускоряет итерацию изменений политики, сокращая цикл с месяцев до часов. GPT-4 также может интерпретировать правила и нюансы в длинной документации по политике контента и мгновенно адаптироваться к обновлениям политики, что приводит к более последовательной маркировке. Мы считаем, что это предлагает более позитивное видение будущего цифровых платформ, где ИИ может помочь модерировать онлайн-трафик в соответствии с политикой конкретной платформы и облегчить умственную нагрузку большого числа модераторов-людей. Любой, у кого есть доступ к API OpenAI, может реализовать этот подход для создания собственной системы модерации с помощью ИИ.

Модерация контента требует кропотливых усилий, деликатности, глубокого понимания контекста, а также быстрой адаптации к новым вариантам использования, что делает ее трудоемкой и сложной задачей. Традиционно бремя этой задачи ложилось на модераторов-людей, которые просеивали большие объемы контента, чтобы отфильтровать токсичные и вредные материалы, поддерживаемые более мелкими моделями машинного обучения, ориентированными на вертикаль. Процесс изначально медленный и может привести к психологическому стрессу модераторов.

Мы изучаем возможности использования LLM для решения этих проблем. Наши большие языковые модели, такие как GPT-4, могут понимать и генерировать естественный язык, что делает их применимыми для модерации контента. Модели могут выносить суждения о модерации на основе предоставленных им политик.

Благодаря этой системе процесс разработки и настройки политик контента сокращается с месяцев до часов.

После написания руководства по политике эксперты по политике могут создать золотой набор данных, определив небольшое количество примеров и присвоив им метки в соответствии с политикой.
Затем GPT-4 считывает политику и присваивает метки тому же набору данных, не видя ответов.
Изучая расхождения между суждениями GPT-4 и суждениями человека, эксперты по политике могут попросить GPT-4 обосновать свои ярлыки, проанализировать двусмысленность в определениях политики, устранить путаницу и предоставить дополнительные разъяснения в политике соответственно. Мы можем повторять шаги 2 и 3, пока не будем удовлетворены качеством политики.

Этот итеративный процесс дает усовершенствованные политики контента, которые преобразуются в классификаторы, что позволяет развертывать политику и модерировать контент в масштабе.

При желании, чтобы обрабатывать большие объемы данных в масштабе, мы можем использовать прогнозы GPT-4 для точной настройки гораздо меньшей модели.

Более последовательные "этикетки"

Политики в отношении контента постоянно развиваются и часто очень детализированы. Люди могут по-разному интерпретировать политики, или некоторым модераторам может потребоваться больше времени, чтобы переварить новые изменения политики, что приводит к несогласованным ярлыкам. Для сравнения, LLM чувствительны к детальным различиям в формулировках и могут мгновенно адаптироваться к обновлениям политик, чтобы предлагать пользователям единообразный контент.

Ускоренная обратная связь

Цикл обновления политики — разработка новой политики, маркировка и сбор отзывов людей — часто может быть длительным и затяжным процессом. GPT-4 может сократить этот процесс до нескольких часов, что позволяет быстрее реагировать на новые угрозы.

Снижение умственной нагрузки

Постоянное воздействие вредоносного или оскорбительного контента может привести к эмоциональному истощению и психологическому стрессу среди модераторов. Автоматизация этого типа работы полезна для благополучия тех, кто в ней участвует.

Иллюстрация того, как мы используем GPT-4 для модерации контента, от разработки политики до модерации в масштабе (OpenAI).

В отличие от конституционного ИИ ( Бай и др., 2022 г. ), который в основном полагается на собственное внутреннее суждение модели о том, что безопасно, а что нет, наш подход делает итерацию политики контента для конкретной платформы намного быстрее и менее трудоемкой. Мы призываем специалистов по доверию и безопасности опробовать этот процесс для модерации контента, поскольку любой, у кого есть доступ к OpenAI API, может провести те же эксперименты уже сегодня.

Суждения по языковым моделям уязвимы для нежелательных предубеждений, которые могли быть введены в модель во время обучения. Как и в случае с любым приложением ИИ, результаты и выходные данные необходимо будет тщательно контролировать, проверять и уточнять, поддерживая людей в курсе. Сокращая участие человека в некоторых частях процесса модерации, которые могут выполняться с помощью языковых моделей, человеческие ресурсы могут быть больше сосредоточены на решении сложных крайних случаев, наиболее необходимых для уточнения политики. Продолжая совершенствовать и развивать этот метод, мы сохраняем приверженность прозрачности и будем продолжать делиться своими знаниями и прогрессом с сообществом.

Информация - OpenAI.

PS. лайк, пожалуйста, он помогает продвижению статьи.

Ну и как положено на VC, канал телеграм))) Канал и чатик

В закрепленных канале всегда telegram боты для доступа в ChatGPT, GPT-4 без VPN, а так же генераторы изображений Midjourney, Dall-e и другие

Как нейросеть GPT-4 модерирует контент?

Проблемы модерации контента

Использование больших языковых моделей

Важные моменты

Ограничения