Новый инструмент поиска датасетов Google Dataset Search вышел из бета-версии. За полтора года удалось проиндексировать 25 млн наборов данных, большая часть из которых поступает из государственных учреждений разных стран и Kaggle, крупнейшего сообщества исследователей данных и ИИ.Набор данных или датасет (dataset) — это структурированная коллекция данных (необработанные или обработанные, в виде текста, чисел или мультимедиа).Поиск представлен в виде каталога с ссылками на платные и бесплатные датасеты с графической или тестовой информацией по разным темам — домашние питомцы, медицинские данные и так далее. Демократизация доступа к наборам данных предоставит возможность исследователям проверять гипотезы и использовать для алгоритмов машинного обучения. Мы решили потестить, что полезного можно найти в Google Dataset Search и пригодны ли датасеты для использования в Polymatica. Сразу напомним — это всего лишь каталог, и качество датасетов гарантирует их источник. Поисковое окно каталога выглядит аскетично и даже предлагает вам ссылку на инструкцию, как загрузить свой личный датасет в поисковик.Что мы стали искать? Конечно, котиков! Мы решили узнать, в каком районе Нью-Йорка живет самое большое количество зарегистрированных домашних пушистиков. Google предложил нам 26 датасетов.Для теста мы выбрали первый бесплатный датасет, который можно было экспортировать в формате Excel — это оказался свежий набор данных Департамента охраны окружающей среды (DEP) на сайте открытых данных государственных органов Нью-Йорка.Мы загрузили датасет в платформу обработки big data — Polymatica и сегментировали данные по районам. В Манхеттене оказалось самое большое количество зарегистрированных котов! Такое сегментирование будет полезно для таргетирования рекламы производителей корма премиум-класса, ветеринарных услуг и кетситтеров.Всем хороших датасетов!