ТОП-10 мировых публикаций по машинному обучению за апрель 2018

Рассмотрено содержание 10 лучших публикаций по машинному обучению – верхушки ранжированного списка англоязычных работ, вышедших за предыдущий месяц.

Команда Mybridge AI алгоритмически ранжировала список из 1400 англоязычных публикаций по машинному обучению, вышедших за апрель 2018 года (ранжирование проведено в мае, так как в месяц публикации не все вышедшие статьи успевают получить должную оценку). Редакция proglib.io ознакомилась с материалами апрельского топа и для удобства читателей резюмировала содержание статей.

Основные темы выпуска: обучение с подкреплением для моделирования движения, обработка естественного языка, эффективное обнаружение объектов на изображениях, аудиовизуальное разделение речи, обработка медицинских изображений, YOLO, сверточные нейронные сети.

1. Правила машинного обучения: лучшие практики от разработчиков Google

Вершину списка лучших публикаций по машинному обучению занимает публикация разработчиков Google, призванная помочь тем, у кого уже есть базовые знания в области машинного обучения, но нет достаточного опыта, чтобы понимать преимущества тех или иных практик.

Идея пособия близка аналогичному руководству Google по стилю C++ и другим популярным руководствам по практическому программированию. Пособие состоит из 43 четко описанных правил-рекомендаций.

2. Уроки, извлеченные из воспроизведения материалов статьи по обучению с подкреплением

Руководствуясь рекомендацией о том, что детальное воспроизведение результатов научных публикаций по машинному обучению – это один из наиболее эффективных способов повышения качества своих навыков, автор подробно рассказывает о подобном опыте, полученном при разработке проекта, что посвящен обучению с подкреплением.

3. На пути к виртуальному каскадеру

Проблемы контроля динамики движения в последнее время вошли в круг стандартных задач обучения с подкреплением. Методы глубокого обучения показали здесь высокую эффективность для широкого круга проблем.

Однако у персонажей, модель движения которых была найдена в результате обучения с подкреплением, наблюдаются нежелательные артефакты: дрожание, ассиметричность походки, чрезмерная подвижность конечностей. В публикации рассматриваются возможности обучения моделей более естественному поведению.

https://www.youtube.com/watch?v=vppFvq2quQ0

4. Аннотированный Transformer

Идея архитектуры Transformer из популярной статьи «Внимание – это все, что вам нужно» (Attention is All You Need) в прошлом году приковала внимание многих исследователей в области компьютерной лингвистики.

Помимо улучшения качества перевода, этот подход обеспечивает новую архитектуру для многих других задач обработки естественного языка. Хотя исходная статья написана ясным языком, саму идею довольно сложно правильно реализовать.

В предлагаемой публикации представлена «аннотированная» версия статьи с построчной реализацией.

5. Дифференцируемая пластичность: новый метод машинного обучения

В середину подборки лучших публикаций по машинному обучению за апрель 2018 года попала публикация лаборатории искусственного интеллекта Uber о разработках в сфере нейронных сетей и попытке переноса понятия пластичности биологических нейросетей. Пластичность реальных нейронов заключается в способности к постоянному взаимодействию между нейронами на протяжении всего существования нейронной сети, что позволяет животным адаптироваться к изменяющимся условиям в течение всей жизни.

В статье рассматривается один из возможных подходов для такого «доучивания» искусственных нейросетей. Научную публикацию лаборатории Uber, послужившую источником приведенного поста, можно прочитать на arXiv.

6. Глубокое обучение для повышения качества представления медицинских изображений

Трудность работы с архивами медицинских изображений заключается в том, что в своей массе они представлены клиническими предположениями. Это означает, что когда вы хотите извлечь какое-то изображение (например, фронтальный рентгеновский снимок грудной клетки), часто вместо этого вы получаете папку из многих разнородных изображений: с горизонтальными и вертикальными отражениями, инвертированными значениями пикселей, поворотами на некоторый угол и т. д.

В статье подробно описывается, как при помощи глубокого обучения эффективно повысить качество представления таких медицинских данных для последующего анализа.

7. Почему компании перестают использовать RNN и LSTM?

Интерес к рекуррентным нейронным сетям и сетям на основе долгой краткосрочной памяти резко возрос в 2014 году, и в течение нескольких последующих лет эти методы стали одними из лучших способов решения задач последовательного обучения и последовательного (seq2seq) перевода, что привело к удивительным результатам повышения качества распознавания речи и соответствующему развитию Siri, Cortana и голосового помощника Google, улучшению качества машинного перевода документов, преобразования изображений в текст и т. д.

Но теперь, в 2018 году, инструменты последовательных моделей уже не являются лучшими решениями и всё больше компаний переходят на нейронные сети, основанные на механизме внимания (Attention based networks). ​Автор объясняет преимущества такого подхода и почему многие компании отошли от использования рекуррентных нейронных сетей.

8. Keras и сверточные нейронные сети

Эта статья представляет вторую публикацию серии из трех частей по построению полной комплексной классификации изображений на основе глубокого обучения. Автор, сопровождая рассказ примерами кода, показывает как реализовать, обучить и оценить результат работы сверточной нейронной сети на собственном наборе данных. Рекомендуем прочитать все три части: в заключительной демонстрируется, как развернуть предобученную модель Keras в мобильном приложении. Ради фана в качестве задачи автор реализует мечту детства о создании Покедекса – устройства распознавания покемонов.

9. Как внедрить детектор объектов YOLO (v3) с нуля в PyTorch

Обнаружение объектов – область, сильно выигравшая от последних разработок в сфере глубокого обучения. Как упоминалось выше, лучший способ познакомиться с каким-либо алгоритмом, в частности алгоритмом обнаружения объекта – реализовать его самостоятельно.

В данной, состоящей из пяти частей, публикации один из наиболее быстрых алгоритмов обнаружения объектов YOLO реализуется при помощи PyTorch 0.4 и Python 3.5. Код в полном объеме можно найти в репозитории Github.

10. От просмотра к прослушиванию: аудиовизуальное разделение речи

Закрывает десятку лучших публикаций по машинному обучению за апрель 2018 года пост из блога Google, посвященного искусственному интеллекту. Общеизвестно, что люди даже в шумной обстановке умеют сосредотачивать свое внимание на конкретном человеке, мысленно «заглушая» все остальные голоса и звуки. Однако та же задача до сих пор представляет челлендж для машинного обучения. В посте описывается аудиовизуальная модель, позволяющая, в частности, выбирать на видео лица, на чьей речи мы хотим сосредоточиться, чтобы выделить их голоса из общего шума.

https://www.youtube.com/watch?v=NzZDnRni-8A

Данная возможность может иметь широкий спектр приложений: от повышения качества распознавания речи на видео и в процессе видеоконференций до улучшения качества работы слуховых аппаратов, особенно в ситуациях, когда одновременно говорят несколько человек.

Бонус – два лучших курса по машинному обучению  и открытый датасет изображений

Из наших публикаций по машинному обучению вас также могут заинтересовать:

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ

matyushkin
07 апреля 2020

ТОП-15 книг по Python: от новичка до профессионала

Книги по Python (и связанным с ним специальным темам) на русском языке. Рас...
admin
14 июля 2017

Пишем свою нейросеть: пошаговое руководство

Отличный гайд про нейросеть от теории к практике. Вы узнаете из каких элеме...