Warszawer 31 марта 2022

📊 ТОП-30 ресурсов с данными для машинного обучения

Сбор данных (Data collection) является техникой профессионалов, а готовые данные в интернете часто ограничены авторскими правами. В этом материале мы расскажем о некоторых ресурсах с предобработанной «датой», которую вы можете использовать в своей работе.

Где искать датасеты?

1. Kaggle

Если вы когда-нибудь проходили курсы или хакатоны, связанные с наукой о данных, вы наверняка сталкивались с Kaggle. Это сообщество специалистов по Data Science. Изначально оно было соревновательной платформой, однако со временем на Kaggle появились другие разделы, в том числе возможность делиться данными.

2. Data World

Каталог, о котором редко упоминают – Data world. По способу поиска он похож на поисковик Google. Разница в том, что глубина поиска больше, например, он включает в себя подфайлы, которые могут содержать нужные данные. Это особенно важно при поиске вторичных данных.

3. UCI Machine Learning Repository

Еще один репозиторий с сотнями наборов данных предлагает Калифорнийский университет. Данные в UCI классифицируется по типу задач машинного обучения. Можно найти данные для одномерных и многомерных временных рядов, классификации, регрессии или рекомендательных систем. Некоторые наборы данных в UCI уже очищены и готовы к использованию.

Датасеты общего назначения

Датасеты общего назначения можно использовать в простых Pet-проектах. Для анализа (EDA) или прогнозирования на их основе не нужны углубленные знания Data Science. Например, вы можете использовать простые техники машинного обучения, не углубляясь в Deep Learning.

В этом разделе мы расскажем о датасетах, которые являются «классикой» машинного обучения.

Государственные датасеты

1. Данные федерального правительства США

Этот портал позволяет загружать данные из различных государственных учреждений США – от бюджетов организаций до документов школ. Спектр тем настолько широк, что делает этот ресурс идеальным для применения в разных сферах вашей деятельности, связанной с датой.

При поиске открытых данных на сайте data.gov пользователи могут применять дополнительные фильтры по категориям: темы, тип набора данных, местоположение, теги, формат файла, организации и т. д.

2. Данные министерства здравоохранения РФ

Данные с этого сайта можно использовать без заключения договора с Министерством здравоохранения РФ. Данные находится в открытом доступе. Информацию можно копировать, публиковать, распространять, видоизменять и объединять с другой информацией, использовать в некоммерческих и коммерческих целях.

3. Данные министерства культуры РФ

Этот ресурс предоставляет информацию о данных на тех же условиях, что и Министерство здравоохранения РФ.

Больше полезных материалов вы найдете на нашем телеграм-канале «Библиотека data scientist’а»

Интересно, перейти к каналу

Данные о жилье

1. Lincolnshire (UK) House Prices

Среднемесячные цены на жилье (£) для графства Линкольншир (Англия, UK) и округов.

Все цифры включают сделки с недвижимостью от 10 000 фунтов стерлингов до более чем 1 млн. Данные отфильтрованы по типам домов. Набор данных обновляется ежемесячно за 12-месячный период.

2. Zillow Housing data

Этот набор данных состоит из нескольких датасетов:

Цена дома (Home values) – скорректированный на сезон показатель стоимости дома и изменения на рынке жилья в данном регионе.

В этом датасете используется мерка ZHVI – Zillow Home Values Index.

Существует ZHVI верхнего уровня (стоимость домов в диапазоне от 65-го до 95-го процентиля для данного региона) и ZHVI нижнего уровня (стоимость домов в диапазоне от 5-го до 35-го процентиля для данного региона). Zillow также публикует ZHVI для всех типов домов и апартаментов, учитывая стоимость, количество спален и метраж.

Прогноз цены дома (Zillow Home Values Forecast) – прогноз индекса стоимости жилья Zillow (ZHVI) на один год. ZHVF создается с использованием среза данных ZHVI по всем домам и доступен как в необработанном, так и в скорректированном виде.

Аренда (Rentals) – показатель рыночной ставки арендной платы в данном регионе. ZORI (Zillow Observed Rent Index) – индекс арендной платы, который определяется по всей выборке арендного жилья, обеспечивая репрезентативность данных для всего рынка аренды.

Индекс рассчитывается в долларах путем вычисления среднего значения объявленной арендной платы, которая попадает в диапазон от 40-го до 60-го процентиля для всех домов и квартир в данном регионе. Подробную информацию можно найти в методологии ZORI.

Экономика и финансы

1. Глобальный датасет инфляции в мире

Экспертная группа Всемирного банка создала глобальную базу данных инфляции, которая охватывает 196 стран за период с 1970 до 2021 гг. Она включает шесть показателей инфляции с тремя частотами – годовая, квартальная и месячная:

общий индекс цен
индекс цен на продукты питания
индекс цен на энергоносители,
базовый индекс потребительских цен
индекс цен производителей
дефлятор ВВП

Кроме того, база данных представляет совокупную инфляцию по странам мира, странам с развитой экономикой, странам с формирующимся рынком и развивающимся странам, а также показатели мировых цен на сырьевые товары.

2. Рост населения

Производная от общей численности населения. Данные можно загрузить в формате .csv, xml и .excel.

3. Рост ВВП

Данные Всемирного банка и файлы данных национальных счетов ОЭСР (Организация экономического сотрудничества и развития).

Датасеты для глубокого обучения

В сфере Deep Learning данные, в большинстве случаев, выражены не табличной датой, а изображениями, видео или текстом. В настоящее время, во многих научных работах используют запатентованные наборы данных, которые не принято публиковать для широкой публики. Это становится проблемой, если вы хотите учиться и практиковать свои навыки. Ниже мы привели самые интересные датасеты, которые можно использовать в сфере глубокого обучения. Они доступны каждому, а для их использования не требуется никаких дополнительных условий.

Компьютерное зрение

1. CIFAR-10

Набор данных CIFAR-10 состоит из 60 000 цветных изображений 32x32 в 10 классах, по 6000 изображений в каждом классе. Он содержит 50 000 обучающих и 10 000 тестовых изображений. Изображения разделены на пять обучающих и одну тестовую партию по 10 000 изображений. Тестовая партия включает в себя 1000 случайно выбранных изображений из каждого класса. Обучающие партии содержат остальные изображения в случайном порядке. Однако, некоторые из обучающих партий могут содержать больше изображений из одного класса, чем из другого. Между собой обучающие партии включают 5000 изображений из каждого класса.

2. CityScapes

Это новый масштабный набор данных, который содержит разнообразные стерео видеопоследовательности, записанные в уличных сценах из 50 городов. В них содержатся высококачественные аннотации на уровне пикселей (pixel-level) для 5000 кадров, в дополнение к набору из 20 000 слабо аннотированных кадров. Таким образом, CityScapes предлагает значительно большой набор данных, чем аналогичные ресурсы.

CityScapes предназначен:

Для оценки производительности алгоритмов зрения. Решение основных задач семантического понимания городских сцен: на уровне пикселей, экземпляров и паноптической семантической маркировки.
Для поддержки исследований, направленных на использование больших объемов (слабо)аннотированных данных. Например, для обучения глубоких нейронных сетей.

3. Objectron

Набор данных Objectron представляет собой коллекцию коротких, ориентированных на объект видеоклипов, которые сопровождаются метаданными AR-сессии. Они включают в себя расположения камеры, разреженные облака точек и характеристику плоских поверхностей в окружающей среде. В каждом видеоролике камера перемещается вокруг объекта, снимая его под разными углами.

Данные содержат аннотированные вручную трехмерные ограничительные рамки для каждого объекта, которые описывают его положение, ориентацию и размеры. Набор данных состоит из 15 000 аннотированных видеоклипов, дополненных более чем 4 млн аннотированных изображений в следующих категориях: велосипеды, книги, бутылки, камеры, коробки с крупами, стулья, чашки, ноутбуки и обувь.

Для обеспечения географического разнообразия набор данных собран в 10 странах на 5 континентах. Вместе с «датой» ресурс предлагает решение для обнаружения 3D-объектов четырех категорий: обуви, стульев, кружек и камер. Модели, приведенные в качестве примера, обучены с использованием данных Objectron и выпущены в MediaPipe.

Анализ тональности текста

1. Sentiment analysis

Набор различных датасетов, каждый из которых содержит необходимую информацию для анализа тональности текста.

Так, данные, взятые с IMDb – это бинарный набор для анализа настроений. Он состоит из 50 000 отзывов из базы данных фильмов (IMDb), помеченных как положительные или отрицательные. Данные содержат только поляризованные отзывы. Отрицательный отзыв имеет оценку ≤ 4 из 10, положительный – ≥ 7 из 10. На каждый фильм включается не более 30 рецензий. Модели оцениваются по точности.

2. SMS спам

Коллекция SMS-спама v.1 – общедоступный набор SMS-сообщений с метками, которые были собраны для исследования спама с мобильных телефонов. Данные состоят из 5574 англоязычных, реальных и неконсолидированных сообщений, помеченных как легитимные (ham) или спам.

Сообщения SMS-спама были вручную извлечены с веб-сайта Grumbletext. Это британский форум, на котором пользователи мобильных телефонов публично заявляют о спамовых SMS-сообщениях. Идентификация текста спам-сообщений в претензиях – сложная и трудоемкая задача. Она включает тщательное сканирование сотен веб-страниц.

3. WikiQA

WikiQA представляет собой набор пар вопросов и предложений. Они были собраны и аннотированы для исследования ответов на вопросы в открытых доменах.

Большинство предыдущих работ по выбору предложений для ответа сосредоточено на наборе данных, созданном на основе данных TREC-QA, который включает вопросы, созданные редакторами, и предложения-кандидаты для ответа, отобранные по совпадению содержательных слов в вопросе.

WikiQA создана с использованием более естественного процесса. Она включает вопросы, для которых не существует правильных предложений, что позволяет исследователям работать над триггером ответа, критически важным компонентом любой системы QA.

Обработка естественного языка (NLP)

1. Text classification

Классификация текста – это задача присвоения предложению или документу соответствующей категории. Категории зависят от выбранного набора данных и могут варьироваться в зависимости от тем.

Так, TREC – это набор данных для классификации вопросов, который состоит из открытых вопросов, основанных на фактах. Они разделены на широкие семантические категории. Датасет имеет шестиклассную (TREC-6) и пятидесятиклассную (TREC-50) версии. Обе версии включают 5452 обучающих и 500 тестовых примеров.

2. Amazon Reviews dataset

Этот набор данных состоит из нескольких миллионов отзывов покупателей Amazon и их оценок. Датасет используется для возможности обучения fastText, анализируя настроения покупателей. Идея состоит в том, что несмотря на огромный объем данных – это реальная бизнес-задача. Модель обучается за считанные минуты. Именно это отличает Amazon Reviews от аналогов.

3. Yelp dataset

Набор данных Yelp – это множество предприятий, отзывов и пользовательских данных, которые можно применить в Pet-проекте и научной работе. Также можно использовать Yelp для обучения студентов во время работы с базами данных, при изучении NLP и в качестве образца производственных данных. Датасет доступен в виде файлов JSON и является «классикой» в обработке естественного языка.

Автопилоты

1. ONCE Dataset

Набор данных ONCE – крупномасштабный набор данных автономного вождения с аннотациями 2D и 3D объектов.

Включает в себя:

1 млн кадров LiDAR, 7 млн изображений с камер.

200 км² регионов вождения, 144 часа вождения.

15 000 полностью аннотированных сцен с 5 классами: автомобиль, автобус, грузовик, пешеход, велосипедист.

Разнообразные условия: день/ночь, солнце/дождь, город/пригород.

2. Ford AV dataset

Ford AV dataset создан в рамках программы AWS Public Dataset Program. Представленные данные организованы на основе временных рядов. Все разделы содержат подразделы для каждого транспортного средства и карт. Каждый подраздел Vehicle включает журналы в формате rosbag, изображения PNG и файлы калибровки всех датчиков. Калибровочные данные для каждого автомобиля предоставляются отдельно.

3. Canadian Adverse Driving Conditions Dataset

CADC Dataset нацелен на продвижение исследований по улучшению самостоятельного вождения в неблагоприятных погодных условиях. Это первый публичный датасет, который посвящен реальным данным о вождении в снежных погодных условиях.

Включает в себя:

56 000 изображений с камер
7 000 разверток LiDAR
75 сцен по 50-100 кадров в каждой
10 классов аннотаций
28 194 Автомобиля
62 851 Пешеход
20 441 Грузовик
4867 Автобусов
4808 Мусорных контейнеров
3205 Объектов, направляющих движение
705 Велосипедов
638 Пешеходов с объектом
75 Лошадей и колясок
26 Животных
Полный набор датчиков: 1 LiDAR, 8 камер, постобработанный GPS/IMU
Неблагоприятные погодные условия вождения, включая снег

Медицинские данные

1. Health Science Library

Клинические данные являются основным источником большинства медицинских исследований. Они собираются в ходе текущего лечения пациентов или в рамках официальной программы клинических исследований.

HSL предлагает клинические данные шести основных типов:

Электронные медицинские карты
Административные данные
Данные о претензиях
Регистры пациентов/заболеваний
Медицинские опросы
Данные клинических исследований

2. DeepLesion

Датасет хронических заболеваний в США (US chronic diseases).

DL предлагает набор данных, которые были получены в результате более 10 тыс. исследований на 4 тыс. уникальных пациентов.

Данные включают в себя информацию о различных типах поражений, таких как: узелки в легких, опухоли печени, увеличенные лимфатические узлы и т.д. Используя DeepLesion, мы обучаем универсальный детектор поражений, который может находить все их типы поражений с помощью единой унифицированной системы.

Список лучших агрегаторов баз данных ML

Лучшие открытые наборы данных (для машинного обучения и анализа)

Приведенные выше датасеты были найдены в результате мониторинга большого количества ресурсов. Поиск этих данных – процесс трудоемкий и требует времени. Он подходит, когда данные нужны вам разово. Однако, в случае, когда данные нужны постоянно, рекомендуется использовать агрегаторы. Наиболее известными из них являются open-data от GitHub, Dataset Search от Google и Microsoft Azure.

Открытые базы данных на Github

1. Congress legislators: база данных людей, избранных в конгресс США

Члены Конгресса США (1789 – настоящее время), комитеты Конгресса (1973 – настоящее время), состав комитетов (только текущий), а также президенты и вице-президенты США в формате YAML, JSON и CSV.

Файлы хранятся в формате YAML в основной ветке этого проекта. YAML – это формат сериализации, схожий по структуре с JSON, но обычно записываемый с одним полем в строке. Как и JSON, он допускает вложенную структуру. Каждый уровень вложенности обозначается отступом или тире.

2. Covid data

Полный набор данных COVID-19 – коллекция данных о коронавирусе, которую ведет компания Our World in Data. Ресурс обновляется ежедневно в течение всего периода пандемии COVID-19.

Dataset Search от Google

Google Dataset Search – это версия поисковой системы Google, которую можно использовать для поиска наборов данных со всего мира в таких областях, как машинное обучение, социальные науки, государственные данные, геонауки, биология, науки о жизни, сельское хозяйство.

По данным Google, их Dataset Search проиндексировал около 25 миллионов наборов данных. Компания считает, что поиск данных поможет создать экосистему обмена, в которой правительства и частные компании смогут обмениваться данными, используя передовые методы хранения и публикации. Большинство открытых датасетов используют schema.org, который является стандартом. Это означает, что любой желающий может свободно загружать и использовать эти наборы данных для исследований, бизнес-аналитики, или обучения ML-модели.

Если у вас есть набор данных, который не находится в открытом доступе, вы можете сделать так, чтобы другие его увидели, добавив описание schema.org.

Открытые наборы данных Microsoft Azure

1. Russian Open Speech To Text

Коллекция образцов речи, полученных из различных аудиоисточников. Набор данных содержит короткие аудиоклипы на русском языке. Все файлы были преобразованы в opus, за исключением тех, которые служат для проверки. Основная цель набора данных – обучение моделей преобразования речи в текст.

Russian speech to text (STT) включает:

~16 миллионов высказываний
~20 000 часов
2,3 ТБ (без сжатия в формате .wav в int16), 356 ГБ

2. TartanAir

Одновременная локализация и картирование (SLAM) – одна из самых фундаментальных возможностей, необходимых для роботов. Благодаря повсеместной доступности изображений, визуальная SLAM (V-SLAM) стала важным компонентом многих автономных систем.

Этот набор данных использует преимущества развивающихся технологий компьютерной графики и направлен на охват различных сценариев со сложными характеристиками при моделировании роботов.

Больше о Microsoft azure datasets вы узнаете по этой ссылке.

***

В этом материале мы постарались рассказать о возможностях использования различных датасетов для реализации проектов в самых разных областях Data Science: политики, экономики, жилья, медицины, компьютерного зрения. Мы привели примеры, с помощью которых можно решить как разовые задачи с использованием ограниченного количества данных, так и задачи, которые требуют постоянного притока новой «даты».