Google Dataset Search вышел из бета-версии

Новый инструмент поиска датасетов Google Dataset Search вышел из бета-версии. За полтора года удалось проиндексировать 25 млн наборов данных, большая часть из которых поступает из государственных учреждений разных стран и Kaggle, крупнейшего сообщества исследователей данных и ИИ.

Набор данных или датасет (dataset) — это структурированная коллекция данных (необработанные или обработанные, в виде текста, чисел или мультимедиа).

Поиск представлен в виде каталога с ссылками на платные и бесплатные датасеты с графической или тестовой информацией по разным темам — домашние питомцы, медицинские данные и так далее.

Демократизация доступа к наборам данных предоставит возможность исследователям проверять гипотезы и использовать для алгоритмов машинного обучения.

Мы решили потестить, что полезного можно найти в Google Dataset Search и пригодны ли датасеты для использования в Polymatica. Сразу напомним — это всего лишь каталог, и качество датасетов гарантирует их источник.

Поисковое окно каталога выглядит аскетично и даже предлагает вам ссылку на инструкцию, как загрузить свой личный датасет в поисковик.

Google Dataset Search вышел из бета-версии

Что мы стали искать? Конечно, котиков! Мы решили узнать, в каком районе Нью-Йорка живет самое большое количество зарегистрированных домашних пушистиков. Google предложил нам 26 датасетов.

Google Dataset Search вышел из бета-версии

Для теста мы выбрали первый бесплатный датасет, который можно было экспортировать в формате Excel — это оказался свежий набор данных Департамента охраны окружающей среды (DEP) на сайте открытых данных государственных органов Нью-Йорка.

Google Dataset Search вышел из бета-версии

Мы загрузили датасет в платформу обработки big data — Polymatica и сегментировали данные по районам. В Манхеттене оказалось самое большое количество зарегистрированных котов! Такое сегментирование будет полезно для таргетирования рекламы производителей корма премиум-класса, ветеринарных услуг и кетситтеров.

Google Dataset Search вышел из бета-версии

Всем хороших датасетов!

22
Начать дискуссию