Гарвард и Google дадут доступ к миллиону книг для обучения нейросетей
Это отличная новость для развития нейросетей, и достаточно неожиданная. Расскажу, почему это так.
** Еще больше интересного в моем канале продуктовые штучки**
Почему это важно?
Архивы и права интеллектуальной собственности этих новостных организаций чрезвычайно ценны — возможно, имеют решающее значение — для обучения моделей ИИ, таких как ChatGPT, в целях предоставления пользователям точной информации.
Так, сенсационные данные о низком качестве ответов поисковика в ChatGPT как раз были вызваны тем, что данных для ответов просто не было в пространстве поиска.
Вот почему Гарвардский университет планирует дать доступ к огромной библиотеке, которая включает почти 1 миллион книг, являющихся общественным достоянием, и охватывающих различные жанры, языки и авторов, включая Диккенса, Данте и Шекспира, которые больше не защищены авторским правом из-за своего возраста.
И все же почему это новость?
Многие медиа компании повально закрывали доступ ботам ИИ для доступа к своему контент. Так, на пике в конце 2023 года этот показатель составлял чуть более трети веб-сайтов.
На середениу 2023 года как минимум 26% из топ-100 сайтов заблокировали доступ ChatGPT к своему ресурсу.
Отказали в доступе такие сайты как pinterest.com, indeed.com
Есть даже целый сайт, который ведет подсчет ресурсов, отказавших ИИ в доступе.
По данным на август 2024 года, более 14 крупнейших новостных изданий из топ-1000 закрыли доступ к своим материалам для ИИ-поисковика SearchGPT компании OpenAI.
Среди заблокировавших доступ к своим данным ресурсов - Disney, Bloomberg, The Washington Post,The New York Times, Wired, The New Yorker, Vogue, Vanity Fair, GQ, CNN, Reuters и Австралийская радиовещательная корпорация. Издательства, такие как Condé Nast, Hearst и Vox Media, также приняли защитные меры.
Достается не только боту OpenAI, но и других компаний: Anthropic (нейросеть Claude), Google. Чуть ли не каждую неделю приходят новости о скандалах с авторскими правами (например, канадские медиа или игровая индустрия против Sora).
После того как несколько медиакомпаний заключили соглашения с OpenAI на обучение ИИ, по данным Wired, количество сайтов, блокирующих GPTBot, резко сократилось.
Так, августе этого года материнская компания WIRED, Condé Nast, заключила сделку. На данный момент OpenAI заключила сделки с 12 издателями.
У самых известных новостных агентств уровень блокировки по-прежнему превышает 50%, но он снизился с почти в 90% в начале этого года (источник).