6 шагов, которые помогут стать специалистом по Data Science
Давно думали разобраться в науке о данных, но не знали, с чего начать? Мы собрали материалы, которые помогут стать специалистом по Data Science.
Прежде чем перейти к обсуждению необходимых знаний, объясним, зачем вообще становиться специалистом по Data Science.
Мы живем в мире, которым управляют данные. То, что делает компании ценными, − это объем, уникальность и качество данных, которые они накопили за время существования. Каждый новый байт данных позволяет корпорациям зарабатывать больше. Сейчас количество населения в мире на пике, количество пользователей интернета тоже, а значит объём потребляемых и разглашаемых пользователями данных крайне высок. И это не предел.
Компании в настоящее время нуждаются в квалифицированных сотрудниках, которые смогут эффективно работать с большими наборами данных и помогут усовершенствовать продукты.
По данным Эндрю Чемберлена из Glassdoor Data Science лидирует в списке лучших вакансий. Список основан на удовлетворённости сотрудников, уровне заработной платы и спросе на специалистов. Важно, что исследователи данных нужны во всех сферах бизнеса − от медицинских сервисов и некоммерческих организаций до розничной торговли.
1. Изучите Python
Вообще-то, мы имели в виду изучение основ программирования в принципе. Но время − ресурс ограниченный, поэтому если вы ещё не считаете себя программистом, то начать стоит именно с Python. Почему? Он сочетает в себе спрос на специалистов, простоту изучения и многофункциональность. К тому же, у него простой синтаксис. После того, как вы изучите основы Python, вам нужно потратить время на знакомство с главными библиотеками.
Вот список рекомендаций по изучению библиотек:
1. Основные библиотеки: Numpy, Scipy, Pandas.
2. Визуализация: Matplotlib, Seaborn.
3. Машинное обучение и глубокое обучение: SciKit-Learn, TensorFlow, Theano, Keras.
4. Обработка естественного языка: NLTK, TextBlob, Aylien.
5. Веб-скрапинг: Запросы, BeautifulSoup 4, Scrapy.
2. Повторите основы статистики и математики
Вам нужно будет использовать концепции статистики и математики для понимания принципов работы анализа данных в офлайне. Статистика, как правило, рассматривается как один из столпов науки о данных. Но поскольку это обширная область исследований, она может показаться необъятной. Есть специальный подкаст, который объясняет математику, необходимую для анализа данных.
Вообще, для начала стоит разобраться с теорией вероятности, статистическими выводами, моделью регрессии и сутью корреляции.
Специалист по данным − человек, который лучше любого инженера знает статистику и умеет писать код лучше, чем любой статистик.
3. Познакомьтесь с SQL
Все компании − от Facebook до New York Times используют базы данных, чаще всего с помощью SQL (языка структурированных запросов). Вам нужно изучить SQL, чтобы быстро добавлять, изменять или извлекать данные из этих баз.
Один из лучших ресурсов для изучения − SQL Zoo. Другой вариант − наши статьи. Вы также можете использовать бесплатные шпаргалки по SQL, ведь запомнить все функции сразу будет тяжело.
4. Поймите, как работают алгоритмы
Алгоритмы для компьютерных программ − как рецепты для поваров (начинающих). Это ряд инструкций, следуя которым программа правильно выполняет то, чего от неё хотят. Существует множество алгоритмов. Вам нужно изучить их все и понять, какой алгоритм когда использовать (в зависимости от задачи).
Алгоритмы можно разбить на три основных типа: линейные, с ветвлениями, с повторениями.
А это список того, что предстоит изучить:
- Линейная регрессия
- Логистическая регрессия
- Наивный байесовский классификатор
- Метод k-ближайших соседей
- Метод опорных векторов
- Дерево решений
- Random Forest
Как только вы познакомитесь с этими концепциями, важно реализовать их самостоятельно, чтобы уложить в голове, как они работают. Вам поможет Github-репозиторий с примерами реализации.
5. Прокачайте навыки презентации
Следует понимать, как лучше визуализировать результаты работы. Чтобы профессионально представлять результаты, нужно знать, как использовать разные библиотеки визуализации данных в Python. Кроме того, вы получите преимущество, если научитесь работать с такими технологиями, как Tableau. Людям легче и удобнее получать информацию, используя визуальные эффекты, а не рыться в огромных объемах данных.
6. Присоединитесь к сообществу специалистов
Многие одиночки труднее достигают поставленных целей, чем те, кто взаимодействует с единомышленниками. Будучи частью сообщества, вы не только быстрее вольётесь в сферу науки о данных, но и будете первым узнавать о новых веяниях, важных для работы. Было бы странным отставать от коллег-конкурентов, развиваясь такими же методами, как и они. Как минимум, стоит регулярно изучать обновления проектов из сферы на GitHub.
Вот некоторые люди и организации, которые стоит читать в Twitter:
Эта статья не является полным перечнем всех навыков, необходимых для того, чтобы стать хорошим специалистом. Ее цель − дать широкое представление о тех навыках, которые ожидают от человека, если он решает заниматься наукой о данных.
Понравился материал о том, как стать специалистом по Data Science? Возможно, вас заинтересует следующее:
- Как научиться data science
- Python для Data Science: 8 понятий, которые важно помнить
- Говорят и показывают сеньоры: обучение Junior Data Scientist
Источник: Как стать специалистом по Data Science on Medium