Google вслед за OpenAI разрешила исключать ваш сайт из сбора данных для обучения своего AI
Большие языковые модели (Large Language Models или LLM), которые используются в популярных чат-ботах ChatGPT от компании OpenAI или Bard от Google, способны отвечать на текстовые (и не только) вопросы с поразительной изобретательностью и осведомлённостью на практически неограниченный список тем.
Они стали "такими умным" в основном благодаря тому, что для их обучения были использованы массивные объёмы текстовых данных, взятые компаниями-разработчиками из открытых источников в интернете.
Это не только Википедия или каталоги мировой литературы, но и множество веб-сайтов, таких как форумы, сайты новостных и аналитических медиа, каталоги фильмов и музыки с отзывами пользователей.
После того как неожиданно для многих проект ChatGPT приобрёл невероятную популярность, владельцы и пользователи ресурсов, которые, очевидно, были использованы для обучения языковых моделей, являющимися "мозгами" чат-бота, начали поднимать вопрос о корректности поведения компании и допустимости использования таких данных без согласия источника.
Наиболее резонансным эпизодом, вызванным такой обеспокоенностью, стало решение популярного форума Reddit о введении платы за доступ к своему API, чтобы предотвратить или хотя бы заработать на обучении языковых моделей компаний, работающих в сфере искусственного интеллекта.
Это, в свою очередь, вызвало резкий протест самих пользователей Reddit, переросший в настоящее противостояние компании и модераторов сообществ. На данный момент это противостояние, судя по всему, руководство компании уже выиграло. Однако сам прецедент показывает, насколько актуальна проблема с защитой данных веб-ресурса от попадания в обучающие данные для языковых моделей.
В ответ на всё больше нарастающую обеспокоенность, первой отреагировала компания OpenAI — создатель знаменитого ChatGPT, разрешив исключить свой сайт из сбора данных для обучения моделей. Теперь несколькими неделями позже, такую возможность предоставила и Google, которая в данный момент активно работает над улучшением своего AI чат-бота Bard — конкурента ChatGPT.
Запретить компаниям собирать данные с вашего сайта очень легко
Это делается через запретительные правила файла robots.txt - способ, известный любому веб-администратору или сисадмину.
Инструкции для запрета OpenAI GPTBot:
Инструкции для запрета Google-Extended Bot:
Поведение компаний выглядит, безусловно, очень сомнительно и запоздало. По сути, возможность ограничить доступ к данным своего сайта предоставляется тогда, когда языковые модели этих компаний уже обучены и данные собраны. Тем не менее этот способ позволит защитить новые данные, публикуемые на ресурсе. Так, по крайней мере, утверждают компании-разработчики.
Опять тормоза для развития нейронок, хотя да, я согласна, нужно это как-то контролировать