Библиотека программиста 08 августа 2019

7 фреймворков автоматического машинного обучения

Работа мечты в один клик 💼

Работа в Сбере: пройди собеседование и получи оффер за 15 минут

💭Мечтаешь работать в Сбере, но не хочешь проходить десять кругов HR-собеседований? Теперь это проще, чем когда-либо!

💡AI-интервью за 15 минут – и ты уже на шаг ближе к своей новой работе.

Как получить оффер?
📌 Зарегистрируйся
📌 Пройди AI-интервью
📌 Получи обратную связь сразу же!

HR больше не тянут время – рекрутеры свяжутся с тобой в течение двух дней! 🚀

Реклама. ПАО СБЕРБАНК, ИНН 7707083893. Erid 2VtzquscAwp

Чем интересны системы автоматического машинного обучения? Какие фреймворки годятся для AutoML? В чем пока есть ограничения? Отвечаем в статье.

Фреймворки автоматического машинного обучения

Концепция автоматического машинного обучения

Пусть имеется набор данных, по которому мы хотим получить предсказательную модель. Традиционный подход машинного обучения требует выполнить такую последовательность действий:

Предварительная обработка данных.
Определение характерных особенностей датасета, конструирование новых признаков.
Выбор подходящей модели обучения.
Оптимизация гиперпараметров.
Обучение при оптимальных параметрах.

Процесс может оказаться долгим, а значит, дорогим. Ведь для лучшего результата необходимо многократно проверить гипотезу, которая, к тому же, на каждом шаге может уточняться.

Задача автоматического машинного обучения (AutoML) – автоматизировать все или хотя бы некоторые из перечисленных этапов без потери предсказательной точности. Идеальная стратегия AutoML предполагает, что любой пользователь может взять «‎сырые» данные, построить на них модель, и получить предсказания с лучшей возможной (для имеющейся выборки) точностью.

Но не значит ли это, что наступит день, когда отпадет необходимость в специалистах по анализу данных? Конечно, нет. Технологии AutoML направлены на избавление от рутинной последовательности операций и ручного перебора моделей. Чтобы специалисты могли больше времени уделять творческой стороне вопроса.

Рассмотрим описанный выше «конвейер» машинного обучения. Каждый этап требует своего подхода. Например, для подготовки данных бывает необходимо автоматизировать:

Определение типа столбцов (численные данные, текст, булевы значения и т. д.)
Смысловое содержание. Например, если поле – текст, то что он представляет: фамилию, дату, геотэг и т. д.
Обнаружение задач: выделение кластеров, ранжирование и пр.

Особое внимание уделяется процессу нахождения лучших гиперпараметров модели. Два наиболее распространенных метода их нахождения:

Поиск по сетке/решетке (grid search).
Случайный поиск (random search).

Очевидно, что популярность этих методов объясняется простотой реализации. Оба метода оправданы лишь для малого числа гиперпараметров. Для оптимизации параметров используются и другие алгоритмы: байесовской оптимизации, имитации отжига, эволюционные алгоритмы и др. Рассмотрим подробнее фреймворки, позволяющие найти подходящую модель и настроить ее параметры.

Фреймворки автоматического машинного обучения

1. MLBox

Фреймворк автоматического машинного обучения

Фреймворк MLBox успел хорошо зарекомендовать себя на Kaggle. Так, на соревновании Two Sigma Connect: Rental Listing Inquiries применявшие MLBox участники смогли попасть в верхние 5% рейтинга. MLBox решает следующие задачи:

Подготовка данных (наиболее развитая часть библиотеки)
Выбор модели
Поиск гиперпараметров

Из недостатков отметим, что на Linux систему установить гораздо проще, чем на Mac или Windows.