Как визуально определить сгенерированный текст?

Сегодня поделюсь способами, с помощью которых можно попробовать визуально определить сгенерирован ли текст нейросетью.

Зачем это нужно?
Повторяющиеся слова и конструкции
Микровыводы
Шаблонные абзацы
Сомнения ИИ
Отсутствие конкретики
Интуиция
Резюме

Начинаем)

Если вы решили прочитать эту статью, то, вероятно, сами знаете для чего вам это.

Я считаю, что это необходимо для информационной гигиены, поскольку сегодня LLM (Large Language Model) стали очень популярными, их могут использовать как обычные пользователи интернета, так и человек или организация, преследующие свои цели, которые могут заключатся в сознательном создании фейков, дезинформации, манипулировании общественным мнением и подобное.

Следует сказать, что некоторые признаки, которые представлены в статье, достаточно субъективные. Все они основаны на опыте, который я получил, работая с ChatGPT.

Это, наверное, самый простой индикатор, сначала приведу примеры:

Думаю, по примерам понятно, что у ChatGPT в тексте постоянно:

Что-то играет роль
Включает в себя
Является
Указывается: они, это, эти и так далее
Кроме того

Очень часто Чат использует союзы:

не только... но и
как... так и

Перечислил самое основное, в комментариях можете дополнить)

Чат постоянно делает микровывод в конце абзаца, как бы объясняя нам выдвинутый ранее тезис, примеры:

Зеленым цветом обозначен тезис, красным - микровывод

Как визуально определить сгенерированный текст?

Добавить тут особо нечего, пойдем дальше

Этот признак скорее появляется от лени человека, который просто делает копипаст и не меняет форматирование:

Обратите внимание на второе предложение в каждом абзаце: это, это, это

Честно говоря, не встречал людей, которые пишут вот так) Если видите Заголовок, а затем пункты по формуле: "Ключ: значение" или без заголовка, то, скорее всего, работала нейросеть.

Замечали, что Чат в большей степени не пишет в утвердительном стиле, наоборот, он использует слова: может, может быть, могут и подобное

Предполагаю, что разработчики сделали это сознательно, потому что если нейросеть генерит утвердительный текст, то в случае каких-то ситуаций с негативным исходом, где действия и решения были приняты на основе ответа ИИ, вопросы и обвинения будут к создателям. Никто не хочет быть крайним, поэтому и такое решение.

Тоже неотъемлемая часть текста, созданного ИИ. Если специально не попросить, то не будет в тексте никакой конкретики: имен, цифр, названий и подобного:

Какие современные технологии стоит внедрить?
Что за платформа?
Какие барьеры и процедуры?

Короче говоря, такой текст обо всем и не о чем)

Помните, что вы люди) Читая текст, сгенерированный ИИ, бывает чувствуешь что-то не то, будто чего-то не хватает, души тексту или что-то подобного. Думаю, вы понимаете о чем Я.

Следует понимать, что предложенные признаки - виденье отдельного человека. Не стоит воспринимать их как аксиому, даже если они вам кажутся здравыми и вы согласны с ними.

Если учесть все эти приемы, то сгенерированный текст можно замаскировать под настоящий и чисто визуально сложно будет определить его происхождение. В этом случае, следует обратиться к другим признакам:

Где вы читаете этот текст? Это что-то официальное или непонятно что?
Это первоисточник или цитирование?
Есть похожая информация в других источниках информации? Может быть видео события или интервью с очевидцами?

Можно продолжить, думаю общую суть вы поняли)

Что ж, на этом у меня всё, думаю, если дочитали до сюда, значит вам было интересно. Желаю вам хорошего дня)

Благодарю за прочтение!

Как визуально определить сгенерированный текст?

В этой статье вы узнаете

Зачем это нужно?

Повторяющиеся слова и конструкции

Микровыводы

Шаблонные абзацы

Сомнения ИИ

Отсутствие конкретики

Интуиция

Резюме