Как изучать Data Science в 2019: ответы на частые вопросы

Мысль о том, чтобы изучать Data Science, не даёт вам покоя? Возможно, не зря. В этой статье мы ответили на ряд популярных вопросов новичков.


В последнее время Data Science набирает популярность в IT-мире, и игнорировать эту технологию просто не получается. Так каково это − изучать Data Science в 2019 году?

Может ли ИИ оставить аналитиков без работы?

Сейчас большая часть аналитики происходит в Excel − таблицы, диаграммы, рутина. Но появляется все больше статей о том, что искусственный интеллект заменит таких специалистов. Это так? И при чем здесь Data Science?

Не совсем, но об этом чуть позже. Data Science развивается и начинает оперировать все большими объемами информации, которые позволяют создавать много полезных штук.

Это сложно?

Когда смотришь на карты путей развития вроде этой, кажется, что и создаются они не для людей, а для роботов.

Отставить панику. К примеру, эта карта появилась ещё в 2013 году, ведь здесь нет даже TensorFlow. Data Science с тех времен стала намного более фрагментированной. Лучше выбрать другой подход.

А в университете учиться обязательно?

Есть мнение, что эта область подразумевает наличие серьёзной базы, освоить которую самостоятельно будет непросто. Действительно ли большинство специалистов по данным имеют университетские дипломы?

Конечно, нет. Ко всему, что вы видите в интернете, стоит относиться со скептицизмом. Большинство статей о том, как изучать Data Science, скорее, являются руководством по бизнес-аналитике. А основная часть материала, изучаемого в университетах, просто устарела. Чтобы не отставать, лучше заниматься самому. Об этом, кажется, уже было сказано много раз, но почему тогда возникают вопросы «как освоить технологию X»?

Какие языки стоит изучить?

Что стоит освоить в первую очередь? Linux? А может, Scala, Python или R? Или сразу оба?

Про Scala можете пока забыть. R неплох в математическом моделировании, но это все. С Python вы получите более развернутый функционал и возможность оперировать такими вещами, как обработка данных и настройка веб-сервисов.

Более того, это простой язык, с помощью которого можно автоматизировать множество задач. И вам не придется изучать его вдоль и поперек − Data Science является чем-то большим, нежели скрипты и машинное обучение.

В смысле?

Это все инструменты. Можно использовать Python, а если вам нужно лишь построить пару диаграмм, то используйте Tableau.

Использование этого инструмента сделает меня Data Scientist'ом?

Разве с покупкой лицензии какого-то сервиса человек становится профессионалом? Кажется, Data Science состоит не только из кружков и столбиков, иначе все можно было бы сделать и в Excel.

Да, на самом деле, это просто маркетинг. Визуализация данных − интересная часть Data Science, но она не включает в себя трудоемкие этапы работы: очистку, обработку, загрузку.

Окей, допустим, пока начнём с Python

Для начала вам нужно изучить несколько библиотек для управления Data Frame. Например, Pandas. И matplotlib, но уже для создания диаграмм.

А что такое Data Frame?

Это функционал для манипулирования данными в табличной структуре. В чём отличия Python от Excel? В среде Python вы можете заниматься этими делами в Jupyter − каждый шаг будет визуализирован, появится полное видение процесса.

Jupyter и другие подобные утилиты намного более автоматизированы и оптимизированы, что позволяет легко отслеживать каждый пройденный этап.

Хорошо, что делать дальше?

Нам нужны данные. Один из вариантов их получения − банальная загрузка нескольких статей из Википедии на жесткий диск. Сделать это можно с помощью Beautiful Soup, например.

Стоп. А разве для этого не SQL используют?

Читая про Data Science складывается впечатление, что значительная часть работы заключается в обработке таблиц, а не просмотре веб-страниц. Как же SQL?

Ну, с неструктурированными текстовыми данными мы можем сделать очень много полезных вещей, например, анализ настроений в социальных сетях или обработку лексикона. Переживать не стоит. NoSQL отлично справляется с хранением данных такого типа.

Что ещё за NoSQL?

Буквально − не только SQL. Он поддерживает структуры данных за пределами реляционных таблиц. Однако, базы данных NoSQL обычно не используют SQL, а являются языком запросов. Но пока, можно об этом не думать.

А зачем мы загружали страницы Википедии?

Анализ этих данных может служить хорошей отправной точкой для создания многих проектов. Например, чат-ботов.

Не стоит ожидать, что у вас сразу получится сделать что-то наподобие Microsoft Tay или прогнозировать продажи. Подобные эксперименты лучше отложить на потом.

Для новичка чат-боты и неструктурированные данные не должны быть приоритетными задачами. Но стоит помнить, что крупные корпорации сейчас занимаются именно этим, а значит, когда наберётесь опыта, обязательно уделите им внимание.

Хорошо. Тогда какой смысл в работе с этими данными сейчас?

Практика. Но мы будем двигаться дальше − таблицы, анализ, множества. Больше похоже на статистический анализ. Начать лучше с чего-то базового, вроде линейной регрессии.

Но этим можно заниматься и в Excel!

Использование скриптов даст вам намного большую гибкость. Во много раз легче использовать Python, нежели создавать адски длинные формулы, ведь так? Тем более, у вас под рукой всегда будет библиотека scikit-learn, которая облегчает жизнь специалистам по данным.

А что насчёт математического моделирования? Это важно?

По общепринятому мнению, линейная алгебра является основой многих наук о данных. Большинство процессов, используемых в этой сфере, базируются на умножении и сложении матриц. Также существуют и другие важные понятия. Например, детерминанты и собственные векторы. К слову, чуть ли не единственный ресурс, где можно найти интуитивное объяснение линейной алгебры, − канал 3Blue1Brown.

Что если математика даётся тяжело?

Не стоит бояться. Прямой контакт с математическими вычислениями почти исключен. Такие библиотеки, как TensorFlow, Keras и scikit-learn, сделают все сами.

Допустим. Линейная регрессия как-то связана с машинным обучением?

Линейная регрессия является инструментом для машинного обучения. Нейронные сети, опорные векторы, логистическая регрессия − все они выполняют некоторую форму подбора кривой, подгоняют ее к точкам. Естественно, в разном контексте. Одни из них достаточно просты для интерпретации, другие же запутаны по определению.

Нейронные сети на самом деле являются просто многослойными регрессиями с некоторыми нелинейными функциями. Может показаться, что это просто, но только в случае, если есть 2-3 переменные. Самое интересное начинается тогда, когда их становится в сотни раз больше.

Стоп, а распознавание изображений – тоже просто функция?

Именно. Каждый пиксель прикрепляется к переменной. Таким образом, чем больше этих самых переменных, тем больше данных нужно обработать. Это одна из многих причин, почему машинное обучение может быть настолько запутанным.

А что насчет вещей попроще? Например, расписание, транспорт, решение судоку?

Помимо Data Science, существует также и Operations Research. На самом деле, между ними есть очень много общего. И именно Operations Research принесло множество алгоритмов оптимизации, которые теперь используют при машинном обучении и устранении проблем ИИ.

Тогда какие алгоритмы использовать для решения простых задач?

Ну, определенно не алгоритмы машинного обучения. Древовидный поиск, метаэвристика, линейное программирование и прочие методологии исследования операций использовались в течение большого промежутка времени, и все еще выполняют такие задачи лучше, чем алгоритмы машинного обучения.

Звучит расплывчато

Да. На самом деле Data Science является невероятно неопределенной дисциплиной, использующей множество других отраслей. Может быть, в скором времени нейросети и роботы смогут оперировать более сложными данными, чем те, с которыми сейчас работает Data Science: автоматическая аналитика, разработка бизнес-планов, составление многоуровневого расписания. Но сначала до этого нужно дожить.

Понравился материал о том, как изучать Data Science? Возможно, вам понравится следующее

Источник: Каково изучать Data Science в 2019 году на Towards Data Science

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ

matyushkin
07 апреля 2020

ТОП-15 книг по Python: от новичка до профессионала

Книги по Python (и связанным с ним специальным темам) на русском языке. Рас...
admin
14 июля 2017

Пишем свою нейросеть: пошаговое руководство

Отличный гайд про нейросеть от теории к практике. Вы узнаете из каких элеме...