В подготовленной при поддержке Факультета Искусственного интеллекта онлайн-университета GeekBrains статье мы расскажем историю успеха специалиста по Data Science.
Текст основан на сокращенном переводе статьи «How To Become A Data Scientist in 12 Months», написанной Фредди Одукомайя, Data Scientists из Royal Mail.
Моя история: почему и как я стал специалистом по данным
Когда я был ребенком, мое воображение не знало границ из-за количества научной фантастики, которую я смотрел: от Звездных войн и Могучих Рейнджеров до Ironman. Эти научно-фантастические фильмы демонстрировали самые передовые технологии и вдохновляли меня на их использование и создание. Мои герои в том возрасте были не знаменитости, а ученые, инженеры и техники, как Эйнштейн, Тони Старк, Стивен Хокинг и т. д. С этого начался мой большой интерес к математике и естественным наукам.
Поступая в университет, я до конца не был уверен в том, какой карьерный путь хочу выбрать: я знал только то, что хочу быть в технической сфере. Любовь к математике и физике, а также увлечение полетами, подтолкнули меня к изучению авиационной техники в Лондонском Университете Сити. Я никогда по-настоящему не ощущал, что это та работа, которой мне хотелось заниматься всю оставшуюся жизнь, но самым очевидным карьерным путем была работа в авиационной промышленности.
После окончания университета я попытался продолжить карьеру в авиации через инженерию, но из-за сложности данной профессии и отсутствия интереса мне это не удалось. Вместо этого я пришел в авиационную промышленность через оперативные роли. Мои обязанности были совсем не трудными, полученные в университете знания были гораздо более сложными, и вскоре я разочаровался и совершенно потерял интерес.
На протяжении многих лет я был очарован миром технологий, особенно программированием, но никогда не думал о карьере в данной сфере. В один прекрасный день я наткнулся на freecodecamp и решил научиться программированию. Путешествие началось с JavaScript, языка интернета. Я помню свое первое мини-приложение, и как я был очарован тем, что вводил команды в компьютер и сразу же видел результаты. Во мне загорелся инженер, так как я имел возможность быстро перейти от концепции к прототипу. Однако я не был до конца удовлетворен этими навыками и хотел карьеру, которая дала бы мне возможность не только кодировать, но и применять свои (потерянные и забытые) математические навыки. В то время Data Science была самой востребованной профессии, но я хотел убедиться, что это не просто шумиха. Я провел исследование: связался с Data Scientists, прочитал несколько книг/блогов и только после этого был убежден, что эта карьера для меня.
Моим первым шагом было оставить авиационную промышленность и занять должность аналитика в центре обработки данных. Это была не техническая роль, но работа мотивировала меня продолжать путь в Data Science. Поначалу я застрял в Excel, но по своей инициативе обсудил это со своим менеджером – мы пришли к соглашению, что я буду работать над проектами, в которых смогу использовать Python. Это позволило мне сразу же применить изученные навыки на практике, работая с реальными проектами Data Science, но обучение продвигалось не так быстро. Онлайн-курсы – это здорово, но если у вас нет обратной связи от лектора/преподавателя, оно становится намного сложнее.
Я решил участвовать в Cambridge Spark Data Science Part-Time Bootcamp. В течение 6 месяцев у меня не было общественной жизни, мои друзья устали от того, что по выходным я только учился и проходил курсы. После окончания Bootcamp я почувствовал, что готов к роли Data Scientist начального уровня. После увольнения я случайно наткнулся на рекламу благотворительного хакатона Royal Mail Data Science, участники которого не только могли помочь благотворительной организации, но и получить возможность пройти интервью в команду Royal Mail Data Science. Я ухватился за этот шанс и через 2 недели получил предложение стать младшим специалистом по обработке данных в Royal Mail.
Мои 8 ключевых уроков
Определитесь с мотивацией
Изучение Data Science требует больших усилий, поэтому в путешествии легко потерять мотивацию. Если ваша мотивация ясна и сильна, это облегчает преодоление трудностей. Напишите, почему вы хотите заниматься Data Science большими буквами и наклейте на все стены вашей квартиры. Например, у меня есть журнал, и почти каждый день я писал в нем, что стану специалистом по данным. Попытайтесь визуализировать свою цель – это действительно помогает.
Практикуйтесь
Если вы продолжаете изучать учебник за учебником, легко ввести себя в заблуждение, думая, будто вы точно знаете, что делаете. Лучший подход заключается в том, чтобы дополнить обучение с помощью учебных пособий/курсов реальным обучением, то есть работой над проектами. Найдите проект, где вы можете совместить применение науки о данных и ваши интересы, например, для меня это было предсказания победителей футбольных матчей Премьер-лиги.
Выберите небольшой набор ресурсов
Существует множество ресурсов для изучения основ Data Science. Часто новички начинают изучать Data Science с одного ресурса, а потом находят другой, лучше и интересней и сразу же переключаются. Постарайтесь избежать этого любой ценой. Определитесь с одним набором ресурсов, который будет включать различные темы (например, создайте учебный план), и придерживайтесь его.
Погрузитесь в сообщество
Окружите себя новостями, ресурсами Data Science и людьми, которые работают и заинтересованы в сфере. Подпишитесь на рассылкы, ежедневно читайте посты и статьи и книги, слушайте подкасты и смотрите видео на YouTube. Посещайте встречи и научные мероприятия сообщества Data Science, информацию о которых вы можете найти на таких сайтах как Meetup и Eventbrite. И наконец-то, присоединись к онлайн-сообществу Data Science (список сообществ приведен ниже).
Участвуйте в хакатонах
Не дожидайтесь, пока вы будете готовы, прежде чем участвовать в хакатонах, приобретенный опыт перевешивает любые трудности с которыми могут столкнуться новички. Хакатоны также могут быть и онлайн, например, Kaggle – это бесконечный онлайн-хакатон.
Найди себе наставника
Для меня это было одним из самых трудных этапов, так как я неправильно понимал, что такое наставничество и кто такой наставник. Наставник – это опытный и надежный учитель/консультант. У вас может быть несколько наставников, с которыми вам не обязательно взаимодействовать напрямую. Мои наставники в конечном итоге стали влиятельными учеными в области данных, на которых я был подписан в социальных сетях. Я также читал их книги и постоянно слушал выступления и выпуски подкастов. Когда я нуждался в совете, я обращался к некоторым из них напрямую по электронной почте и/или через социальные сети, не все из них отозвались, но те, кто ответили, действительно мне помогли.
Рекомендованные ресурсы
Курсы
- Open Source Data Science Masters – @clarecorthell сделала для нас всю тяжелую работу и составила охватывающую различные аспекты Data Science учебную программу со ссылками на соответствующие курсы, книги и т. д.
- Class Central – ресурс, где вы можете найти любой онлайн-курс, а также его краткое описание и рейтинги пользователей.
- DataCamp – EdTech компания, которая обучает data science через интерактивные онлайн курсы.
Практика
- #100DaysOfCode – вызов для начинающих программистов, во время которого вам предстоит кодировать по крайней мере час каждый день в течение 100 дней.
- Codewars – совершенствуйте свои навыки, тренируясь с другими на реальных задачах.
- DrivenData – соревнования на тему социальных проблем в мире и организациях.
- HackerRank – практикуйтесь в кодировании, соревнуйтесь, находите работу.
Рассылки и блоги
- Data Elixir – рассылка новостей Data Science со всего интернета.
- Data Science Roundup – самые полезные статьи Data Science в интернете от Тристана Хэнди.
- FiveThirtyEight – блог Нейта Сильвера про использование статистического анализа для решения вопросов политики и спорта.
- Variance Explained – блог Дэвида Робинсона, главного специалиста по данным в DataCamp.
- Flowing Data – блог о том, как специалисты по статистике, дизайнеры, Data Scientists и другие используют анализ и визуализацию для понимания данных и самих себя.
- The Pudding – блог, в котором объясняются идеи, обсуждаемые в культуре, с помощью визуальных эссе.
- Datacamp – блог, который поможет вам стать Data Scientist.
- Kaggle Blog – официальный блог Kaggle.com
- Machine Learning Mastery – практикуйте машинное обучение с нуля.
- Chris Albon – Data Scientist , который стоит за популярным блогом Machine Learning Flashcards и автор Machine Learning with Python Cookbook.
- KD Nuggets – один из ведущих сайтов про бизнес аналитику, Big Data, Data Mining, Data Science, и машинное обучение.
- Analytics Vidhya – все про Data Analytics.
Сообщества
- Python for Data Science – канал Slack для «пайтонистов» в Data Science.
- FreeCodeCamp Data Science Room – канал Gitter для Data Scientists.
- #100DaysOfCode – канал Slack для участников #100DaysOfCode Challenge.
- Stack Overflow – крупнейшее в мире сообщество разработчиков.
- Reddit’s Data Science Subreddit.
- Kaggle’s online forum.
Хочу подтянуть знания по математике, но не знаю, с чего начать. Что делать?
Если базовые концепции языка программирования можно достаточно быстро освоить самостоятельно, то с математикой могут возникнуть сложности. Чтобы помочь освоить математический инструментарий, «Библиотека программиста» совместно с преподавателями ВМК МГУ разработала курс по математике для Data Science, на котором вы:
- подготовитесь к сдаче вступительных экзаменов в Школу анализа данных Яндекса;
- углубитесь в математический анализ, линейную алгебру, комбинаторику, теорию вероятностей и математическую статистику;
- узнаете роль чисел, формул и функций в разработке алгоритмов машинного обучения.
- освоите специальную терминологию и сможете читать статьи по Data Science без постоянных обращений к поисковику.
Курс подойдет как начинающим специалистам, так и действующим программистам и аналитикам, которые хотят повысить свой уровень или перейти в новую область.
Комментарии