Взгляд на основные тенденции в машинном обучении

3
6145
Добавить в избранное

Разбираемся, как за последние 5 лет изменились технологии и подходы к работе в машинном обучении на примере исследования Andrej Karpathy.

Руководитель отдела машинного обучения в Tesla, Andrej Karpathy, решил выяснить, как развиваются тенденции ML в последние годы. Для этого он воспользовался базой данных документов о машинном обучении за последние пять лет (около 28 тысяч) и проанализировал их. Своими выводами Андрей поделился на Medium.

Особенности архива документов

Рассмотрим для начала распределение общего числа загруженных документов по всем категориям (cs.AI, cs.LG, cs.CV, cs.CL, cs.NE, stat.ML) в течение времени. Мы получим следующее:

Взгляд на основные тенденции в машинном обучении

Видно, что в марте 2017 было загружено почти 2000 документов. Пики, которые появляются на графике, вероятно, обусловлены датами конференций, связанных с машинным обучением (NIPS/ICML, например).

Общее число бумаг послужит знаменателем. Мы можем посмотреть, какая часть документов содержит интересные нам ключевые слова.

Основы глубокого обучения

Для начала определим наиболее часто используемые в Deep Learning фреймворки. Для этого найдем бумаги, которые содержат упоминания о фреймворках в любом месте работы (даже если это список используемой литературы).

Для марта 2017 получается следующая картина:

Таким образом, 10% всех документов, загруженных в этот период содержат упоминания TensorFlow. Конечно, не в каждой статье будет упоминаться используемое окружение, но если предположить, что в документах такие упоминания встречается с некоторой фиксированной вероятностью, получится, что около 40% членов сообщества машинного обучения использует TensorFlow.

А вот картина того, как некоторые из наиболее популярных фреймворков эволюционировали с течением времени:

Взгляд на основные тенденции в машинном обучении

Можно заметить, что рост популярности Theano замедлился. Caffe быстро взлетел в 2014 году, но уступил в последние годы по популярности TensorFlow. Torch и PyTorch медленно, но верно набирают популярность.

Модели ConvNet

В этой категории можно видеть всплеск интереса к ResNets (остаточным сетям) – упоминания о них встречаются в 9% всех документов:

Взгляд на основные тенденции в машинном обучении

Алгоритмы оптимизации

Среди алгоритмов оптимизации Adam занимает внушительную долю в 23%. Фактическую долю алгоритма трудно определить, но, вероятно, она выше 23 процентов: не во всех документах упоминаются используемые алгоритмы оптимизации. Автор исследования полагает, что не упомянутая активность алгоритма составляет приблизительно 5% дополнительно.

Взгляд на основные тенденции в машинном обучении

Исследователи

Также любопытно взглянуть на упоминания имен известных исследователей в машинном обучении:

Взгляд на основные тенденции в машинном обучении

Несколько замечаний: фамилия Bengio упоминается в 35% всех документов, но есть два человека с этой фамилией (Samy и Yoshua). А вот Джефф Хинтон – один, и он упоминается в целых 30% работ.

Популярные и непопулярные ключевые слова в машинном обучении

Наконец, рассмотрим самые «горячие» и самые непопулярные слова, встречающиеся в исследованиях машинного обучения.

Топ популярных

Для определения популярности слова автор использовал отношение максимального количества использования этого слова в прошлом году к количеству его упоминаний до 2016 года. Таким образом, получается список наиболее горячих слов:

Видно, что хотя до 2016 года упоминания ResNet составляли всего 1,044 процента от всех документов, в марте 2017 его доля составила 8,53 процента. Отсюда такая высокая позиция (8.53 / 1.044 ~ = 8.17). Топ показывает, что основные новинки пользуются популярностью у исследователей.

Взгляд на основные тенденции в машинном обучении

Топ непопулярных

Давайте взглянем на обратный топ. Что в прошлом году использовалось меньше всего:

Автор отмечает, что не совсем понятно в каком контексте используется «фрактал» – по всей видимости, имеется в виду байесовская оценка решения.

Больше материалов по machine learning:

Интересуетесь Data Science?

Подпишитесь на нашу рассылку, чтобы получать больше интересных материалов:

И не беспокойтесь, мы тоже не любим спам. Отписаться можно в любое время.




Добавить комментарий