Google вслед за OpenAI разрешила исключать ваш сайт из сбора данных для обучения своего AI

Источник фото: https://blog.google/technology/ai/bard-google-ai-search-updates/

Большие языковые модели (Large Language Models или LLM), которые используются в популярных чат-ботах ChatGPT от компании OpenAI или Bard от Google, способны отвечать на текстовые (и не только) вопросы с поразительной изобретательностью и осведомлённостью на практически неограниченный список тем.

Они стали "такими умным" в основном благодаря тому, что для их обучения были использованы массивные объёмы текстовых данных, взятые компаниями-разработчиками из открытых источников в интернете.

Это не только Википедия или каталоги мировой литературы, но и множество веб-сайтов, таких как форумы, сайты новостных и аналитических медиа, каталоги фильмов и музыки с отзывами пользователей.

После того как неожиданно для многих проект ChatGPT приобрёл невероятную популярность, владельцы и пользователи ресурсов, которые, очевидно, были использованы для обучения языковых моделей, являющимися "мозгами" чат-бота, начали поднимать вопрос о корректности поведения компании и допустимости использования таких данных без согласия источника.

Наиболее резонансным эпизодом, вызванным такой обеспокоенностью, стало решение популярного форума Reddit о введении платы за доступ к своему API, чтобы предотвратить или хотя бы заработать на обучении языковых моделей компаний, работающих в сфере искусственного интеллекта.

Это, в свою очередь, вызвало резкий протест самих пользователей Reddit, переросший в настоящее противостояние компании и модераторов сообществ. На данный момент это противостояние, судя по всему, руководство компании уже выиграло. Однако сам прецедент показывает, насколько актуальна проблема с защитой данных веб-ресурса от попадания в обучающие данные для языковых моделей.

В ответ на всё больше нарастающую обеспокоенность, первой отреагировала компания OpenAI — создатель знаменитого ChatGPT, разрешив исключить свой сайт из сбора данных для обучения моделей. Теперь несколькими неделями позже, такую возможность предоставила и Google, которая в данный момент активно работает над улучшением своего AI чат-бота Bard — конкурента ChatGPT.

Это делается через запретительные правила файла robots.txt - способ, известный любому веб-администратору или сисадмину.

Инструкции для запрета OpenAI GPTBot:

https://platform.openai.com/docs/gptbot

Инструкции для запрета Google-Extended Bot:

https://blog.google/technology/ai/an-update-on-web-publisher-controls/

Поведение компаний выглядит, безусловно, очень сомнительно и запоздало. По сути, возможность ограничить доступ к данным своего сайта предоставляется тогда, когда языковые модели этих компаний уже обучены и данные собраны. Тем не менее этот способ позволит защитить новые данные, публикуемые на ресурсе. Так, по крайней мере, утверждают компании-разработчики.

Google вслед за OpenAI разрешила исключать ваш сайт из сбора данных для обучения своего AI

Запретить компаниям собирать данные с вашего сайта очень легко