Подборка датасетов для машинного обучения

Привет, читатель! Перед тобой статья-путеводитель по открытым наборам данных для машинного обучения.

В ней я для начала соберу подборку интересных и свежих (относительно) датасетов. А бонусом в конце статьи прикреплю полезные ссылки по самостоятельному поиску датасетов.

Итак, меньше слов, больше данных.

Данные смертей и сражений из «Игры престолов». Набор данных объединяет три источника, каждый из которых основан на информации из серии книг.
Глобальная база данных терроризма. Более 180 тысяч террористических атак по всему миру: с 1970 года по 2017 год.
Биткоин, исторические данные. Данные биткоина с интервалом в 1 минуту с избранных бирж: с января 2012 года по март 2019 года.
FIFA 19 полный набор данных игроков. Больше 18 тысяч игроков FIFA 19, примерно 90 атрибутов, извлечённых из последней базы данных FIFA.
Статистика видео YouTube. Ежедневная статистика трендовых видео на YouTube.
Обзор показателей самоубийств с 1985 года по 2016 год. Сравнение социально-экономической информации с показателями самоубийств по годам и странам.
Huge Stock Market Dataset. Исторические дневные цены и объёмы всех американских акций и ETF.
Индикаторы мирового развития. Показатели развития стран со всего мира.
Kaggle Machine Learning & Data Science Survey 2017. Большое представление о состоянии науки о данных и машинного обучения.
Данные о насилии и оружии. Полный отчёт о более чем 260 тысячах американских инцидентов с применением оружия в 2013–2018 годах.
Рентгенография грудной клетки (пневмония). 5863 изображения, две категории.
Распознавание пола по голосу. Эта база данных была создана, чтобы идентифицировать голос как мужской или женский, основываясь на акустических свойствах голоса и речи. Набор данных состоит из 3168 записанных голосовых сэмплов, собранных от мужчин и женщин.
Студенческое потребление алкоголя. Данные были получены в ходе опроса учащихся по математике и португальскому языку на курсах в средней школе. Он содержит много интересной социальной, гендерной и учебной информации о студентах.
Набор данных о клетках малярии. Сотовые изображения для выявления малярии.
Опросы молодых людей. Данные о предпочтениях, интересах, привычках, мнениях и страхах молодых людей.
Мировые рейтинги университетов. Исследуйте лучшие университеты мира.
Обнаружение мошенничества с кредитными картами. Датасет по анонимным транзакциям кредитных карт, помеченные как мошеннические или подлинные.
Датасет болезней сердца. База данных содержит 76 атрибутов, таких как возраст, пол, тип боли в груди, артериальное давление в покое и другие.
Европейская футбольная база. Больше 25 тысяч матчей, атрибуты игроков и команд для европейского профессионального футбола.
Винные обзоры. 130 тысяч винных обзоров с разнообразием, местоположением, винодельней, ценой и описанием.
Baidu Apolloscapes. Большой датасет для распознавания 26 семантически разных объектов вроде машин, велосипедов, пешеходов, зданий, уличных фонарей и так далее.
Comma.ai. Более семи часов езды по шоссе. Датасет включает информацию о скорости машины, ускорении, угле поворота руля и GPS-координатах.
Распознавание цветов. Набор данных содержит 4242 изображения цветов. Сбор данных основан на данных Flickr, изображениях Google и «Яндекса».
Ежедневная рыночная цена каждой криптовалюты. Исторические цены на криптовалюту для всех токенов.
Шоколадный рейтинг. Экспертный рейтинг более 1700 шоколадных батончиков.
Рынок медицинского страхования. Данные о планах в области здравоохранения и стоматологии на рынке медицинского страхования США.
Звуки сердцебиения. Классификация аномалий сердцебиения по стетоскопу.
База данных аниме рекомендаций. Рекомендации от 76 тысяч пользователей на myanimelist.net
Изображения клеток крови. 12 500 изображений: четыре разных типа клеток.
Рентгенография грудной клетки. Более 112 тысяч рентгенограмм грудной клетки от более чем 30 тысяч уникальных пациентов.
Отчеты об убийствах, 1980–2014 годы. Проект «Ответственность за убийства» — самая полная база данных об убийствах в Соединенных Штатах, доступных в настоящее время.
База данных подержанных автомобилей. Более 370 тысяч подержанных автомобилей. Содержание данных на немецком языке, поэтому нужно сначала перевести их, если вы не говорите на немецком.
Дом открытых данных правительства США. Данные, инструменты и ресурсы для проведения исследований, разработки веб-приложений и мобильных приложений, разработки визуализаций данных.
Национальный центр профилактики хронических заболеваний и укрепления здоровья (NCCDPHP). Центр работает над снижением факторов риска хронических заболеваний.
Крупнейший в Великобритании сборник социальных, экономических и демографических ресурсов.
EconData. Несколько тысяч экономических временных рядов, подготовленных рядом правительственных учреждений США и распространенных в различных форматах и СМИ.
Центр исследования побережья. Интересные данные о море и его биологическом составе. Здесь можно найти датасеты начиная с анализа данных модели Красного моря до исследования температуры и течений над узким южным калифорнийским шельфом.
Набор данных цифр языка жестов. Турция, Анкара, Айранджи, Анадолу. Набор данных о языке жестов средней школы.
Качество красного вина. Простой и понятный практический набор данных для регрессионного или классификационного моделирования.
Таблицы английской футбольной премьер-лиги (1968–2019 годы).
HotspotQA Dataset. Датасет с вопросами-ответами, позволяющий создавать системы для ответов на вопросы более понятным способом.
xView. Один из самых больших общедоступных наборов воздушных снимков земли. Он содержит изображения различных сцен со всего мира, аннотированных с помощью ограничительных рамок.
Labelme. Большой датасет аннотированных изображений.
ImageNet. Датасет изображений для новых алгоритмов, организованный в соответствии с иерархией WordNet, в которой сотни и тысячи изображений представляют каждый узел иерархии.
LSUN. Датасет изображений, разбитых по сценам и категориям с частичной разметкой данных.
MS COCO. Крупномасштабный датасет для обнаружения и сегментации объектов.
COIL100. 100 разных объектов, изображённых под каждым углом в круговом обороте.
Visual Genome. Датасет, где примерно 100 тысяч подробно аннотированных изображений.
Google’s Open Images. Коллекция из 9 млн URL-адресов к изображениям, «которые были помечены метками, охватывающими более 6000 категорий» под лицензией Creative Commons.
Labelled Faces in the Wild. Набор из 13 тысяч размеченных изображений лиц людей для использования приложений, которые предполагают использование технологии распознавания лиц.
Stanford Dogs Dataset. Содержит 20 580 изображений из 120 пород собак.
Indoor Scene Recognition. Датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий.
Oxford’s Robotic Car. Более 100 повторений одного маршрута по Оксфорду, заснятого в течение года. В датасет попали разные комбинации погодных условий, трафика и пешеходов, а также более длительные изменения вроде дорожных работ.
Cityscape Dataset. Большой датасет, содержащий записи 100 уличных сцен в 50 городах.
KUL Belgium Traffic Sign Dataset. Более 10 тысяч аннотаций тысяч разных светофоров в Бельгии.
LISA Laboratory for Intelligent & Safe Automobiles. Датасет с дорожными знаками, светофорами, распознанными средствами передвижения и траекториями движения.
Bosch Small Traffic Light Dataset. Датасет, где 24 тысячи аннотированных светофоров.
WPI datasets. Датасет для распознавания светофоров, пешеходов и дорожной разметки.
Berkeley DeepDrive. Огромный датасет для автопилотов. Он содержит более 100 тысяч видео с более чем 1100 часами записей вождения в разное время дня и в различных погодных условиях.
MIMIC-III. Датасет с обезличенными данными о состоянии здоровья примерно 40 тысяч пациентов, находящихся на интенсивной терапии (демографическими данными, показатели жизнедеятельности, лабораторными анализами и лекарствами).
Amazon Reviews. Содержит около 35 млн отзывов с Amazon за 18 лет. Данные включают информацию о продукте и пользователе, оценки и сам текст отзыва.

Конечно, Kaggle — место встречи всех любителей соревнований по машинному обучению.
Google Dataset Search — поиск датасетов по всему интернету. Также при необходимости можно добавить свои наборы данных.
Machine Learning Repository — набор баз данных, теорий предметной области и генераторов данных, которые используются сообществом машинного обучения для эмпирического анализа алгоритмов машинного обучения.
VisualData — поиск датасетов для машинного зрения, есть удобная классификация по категориям.
DATA USA — полный набор по общедоступным данным США c визуализацией, описанием и инфографикой.

На этом наша короткая подборка подошла к концу. Если у кого-то есть, чем дополнить или поделиться — пишите в комментариях.

Всем знаний!

Подпишись на канал «Нейрон» в Telegram (@neurondata) ― там свежие статьи и новости из мира науки о данных появляются каждую неделю. Спасибо всем, кто помогает с полезными ссылками, особенно Игорю Мариарти, Андрею Бондаренко и Матвею Кочергину.

#датасет