Как проверять буллщит нейросетей?

Я установил для себя правило — исследовательская задача сделанная через нейросетку скорее всего сделана не верно. В 80% случаев, когда мне приносят работу, пропущенную LLM, там есть ошибки, неточности и откровенное вранье. Круто, что ИИ ускоряет работу, но в процессе перепрыгивает истину.

Почему нейросети работают быстрее человека? У них 9 недель в одном месяце.
Почему нейросети работают быстрее человека? У них 9 недель в одном месяце.

Почему нейросети врут? Они так устроены. У модели нет задачи выдавать вам правду — она обучена выдавать самый убедительный текст, который вам понравится. Ответ очень похож на правду, что усыпляет нашу бдительность.

Я не очень люблю дискурс про мир «Постправды», в котором мы живем (как будто когда-то жили иначе). Но с момента публичного запуска ChatGPT интернет стремительно начала заполнять ложная информация. И она будет множиться. Вопрос «кто больше врёт: нейросеть или плохой эксперт человек?» оставлю на полях.

Вот методы, которые я использую для валидации информации от нейросетей.

1. Всегда проверять наличие первоисточника

Мое любимое — «Не знаю, что вы возитесь, мы вот за день исследование провели» — и скидывают копипасту из GPT Deep Research. Читается очень убедительно, но когда начинаешь распаковывать этот текст по слоям, видишь проблемы. Нет ни одного источника — информацию невозможно валидировать. Текст читается убедительно с ходу, но по сути не содержит никаких инсайтов, повторяет одни выводы для абсолютно разных контекстов. И делает натяжки на глобус, когда не может найти нужную инфу: тащит цифру из смежной темы / индустрии, делает спорные экстраполяции.

Просто спрашивайте, где посмотреть первоисточник. Это помогает заземлить диалог на данные. Если у людей совесть есть, то у них внутри начнет зудеть, и они пойдут перепроверять. Если нет, то сами их проверьте.

2. Использовать нейросети с поиском

Есть Perplexity, который не просто выдумывает информацию, но делает предварительный поиск. В GPT тоже добавили функцию поиска, которую можно включить в интерфейсе чата. Проблема валидации источников еще плохо решена, и модели часто ссылаются на SEO мусор, но это хотя бы можно отследить. Смотрите оригинальную статью, потому что модели с поиском тоже могут галлюцинировать, хоть и реже.

3. Просить привести конкретные цитаты

Когда ищете информацию в большом отчете или транскрипте интервью, просите привести конкретную цитату. До этого, вы по сути говорили модели «пиши ответ как хочешь», а с цитатой вы говорите «ты либо даешь верную цитату, либо откровенно мне врешь». Работает круто. Стандартный вывод нейросетки основан не понятно на чем, а по цитате можно проверить корректность ее умозаключений.

Просто допишите: «К каждому выводу добавляй цитату или цитаты пользователя, которые помогли тебе к нему прийти».

4. Проверять руками

Особенно те кейсы, где хотим что-то проанализировать, посчитать: частотность темы в ответах на опрос или выделить популярные проблемы в отзывах. Интерфейс ChatGPT и даже Data Analysis плохо работает с таблицами, либо там нужен очень хороший промпт. Часто простая проверка «на дурака» сразу вскрывает все неточности.

Мы недавно кластеризировали 2000 ответов на открытый вопрос. Нужно было посчитать, какие вещи и как часто люди называют преимуществом жизни в деревне. И нам GPT посчитал «деревянные домики» 256 раз. Я просто перешел в эксельку с ответами и в поиске написал «дом». Мне выдало около 50 значений. Как-то сомнительно. Вряд ли в анкете наберется 256 указаний деревянных домиков, если там "дом"ов даже нет особо.

5. Не делать через нейросеть то, что не умею делать руками

Здесь вы вряд ли меня послушаете. А зачем тогда еще использовать нейросети, если не для таких задач?

Здесь нужно честно признаваться себе, что я не могу оценить корректность ответа. Если были уверены на 0%, как составить юридический документ и GPT вам помог, то вы стали уверены может быть на 30%. Для вас это большой скачок, но для опытного юриста это буллщит. В исследованиях так же: если вы не знали совсем ничего, то информация от нейросети может взорвать вам мозг, но опытный исследователь всегда может добавить вам новые проценты уверенности. Пока что 🙂

3
11 комментариев