О необходимых специалисту по анализу данных ресурсах мы писали в статьях «Data Science с нуля: обзор книг и видеокурсов для начинающих» и «10 навыков, необходимых в профессии Data Scientist». Сегодня подробнее расскажем о необходимых для овладения профессией Data Scientist этапах.
Выберите специализацию
В Data Science существует множество ролей: специалист по визуализации данных, специалист по машинному обучению, специалист по обработке данных, инженер по обработке данных и т. д. Делайте выбор в зависимости от вашего образования, опыта и личного интереса. Поговорите с людьми, которые работают в отрасли, чтобы выяснить, какие обязанности придется выполнять и каких навыков потребует желаемая должность.
При выборе специализации не спешите сразу к ней переходить. Изучите смежные с вашей нынешней профессией сферы, это поможет вам легче сменить род занятий. Например, разработчику программного обеспечения не составит труда перейти к разработке данных.
Об основных специализациях и обязанностях Data Scientist мы подробно рассказали в статье «Data Science и Big Data: сходства и различия».
Выберите инструменты и язык программирования
Судя по описаниям вакансий, наиболее фундаментальными навыками и инструментами науки о данных являются следующие:
- Программирование на Python или R (выбору языка посвящена статья «От "R против Python" к "R и Python"»);
- Владение популярными инструментами для задач Data science. Если вы выбрали Python, придется изучить такие библиотеки, как Pandas, NumPy, Matplotlib или Plotly и scikit-learn;
- Очистка и предобработка (data engineering), анализ и визуализация данных;
- Написание SQL-запросов;
- Основы статистики и прикладной математики;
- Навыки машинного обучения и моделирования;
- Тонкости рабочего процесса и навыки совместной работы (Git, командная строка/bash и т. д.).
Пройдите курсы
Нужные знания можно получить самостоятельно, но проще пройти специализированные курсы. Систематизированная программа позволит более полно освоить ключевые навыки Data Scientist: основы прикладной математики и статистики, программирование, предобработку данных и работу с алгоритмами. Стоит также обратить внимание на курсы по выбранной вами специализации, например по обработке естественного языка, по анализу временных рядов, по обучению с подкреплением и т. д.
Статистика и математика:
- Основы статистики
- Intro to Descriptive Statistics (англ.)
- Bayesian Statistics: From Concept to Data Analysis (англ.)
- Введение в математический анализ
- Практикум по математике и Python
- Data Science Math Skills (англ.)
- Mathematics for Data Science (англ.)
Курсы Python:
- Программирование на Python
- Питон Тьютор
- Основы программирования на Python
- DataCamp (англ.)
- Google’s Python Class (англ.)
Курсы R:
SQL
- Введение в базы данных
- Introduction to Structured Query Language (SQL) (англ.)
- SQL for Data Science (англ.)
Предобработка данных
- Data Science Methodology. Data Preparation (англ.)
- Exploratory Data Analysis (англ.)
Алгоритмы:
- Алгоритмы: теория и практика. Методы
- Machine Learning Algorithms: Supervised Learning Tip to Tail (англ.)
Применяйте знания на практике
Во время прохождения курсов и тренингов сосредоточьте усилия на практическом применении изученного. Даже если вы изначально не понимаете лежащих в основе метода сложных математических концепций, начните со способов интерпретации результатов. Вы всегда сможете развить глубокое понимание на более позднем этапе обучения.
Другой способ закрепить полученные знания – участие в конкурсах, соревнованиях (например, Kaggle) и хакатонах по Data Science. Освоение технологий машинного обучения, нейронных сетей, распознавания образов и других передовых методов имеет значение, но большая часть работы над проектом заключается в очистке и подготовке данных к анализу. Участие в соревнованиях позволит закрепить навыки работы с различными типами данных и подготовиться к реальным проектам.
Присоединитесь к сообществу Data Science
Когда вы освоили необходимые навыки и попробовали применить их на практике, следующий важный шаг – присоединение к сообществу Data Science. Освоение новой области может показаться немного пугающим, когда вы делаете это в одиночку, но единомышленники ответят на ваши вопросы и помогут решить возникающие проблемы.
Несколько примеров посвященных Data Science комьюнити, в которые стоит вступить:
- Open Data Science
- Data Science Central комьюнити на LinkedIn
- Kaggle forum
- StackExchange
- Quora
- Dataquest learning community (Slack chat)
- Machine learning subreddit
- Open Data Community
Развивайте коммуникативные навыки
Умение донести идею – один из самых важных soft skills в профессии Data Scientist. Чтобы эффективно делиться идеями с коллегами или доказывать свою точку зрения на собраниях, вы должны знать, как донести сложные концепции до широкой аудитории. Это особенно важно в бизнес-сфере, где заказчики проекта могут не владеть техническими навыками и терминологией. Для презентации результатов потребуется умение донести идею простым языком.
Если вам сложно передавать сложные концепции, стоит сделать следующее:
- Попытайтесь научить менее технически подкованных друзей базовым концепциям науки о данных. Обучая других, вы будете учиться сами;
- Участвуя в хакатонах и митапах по Data Science, тренируйтесь задавать правильные вопросы и презентовать результаты проектов;
- Используйте GitHub для размещения проектов и обмена идеями;
- Будьте активны в сообществах Data Science, задавайте вопросы и оставляйте комментарии.
Не переставайте учиться
Работа в Data Science требует постоянного изучения новых технологий и методов работы с данными. Наиболее полезными источниками актуальной информации являются блоги и посты в социальных сетях (обратите внимание на лидеров комьюнити Data Science в LinkedIn), которые ведут влиятельные специалисты. Они постоянно публикуют посты о последних веяниях в этой области, своем опыте, достижениях и ошибках на карьерном пути. Уделяйте время прочтению новостей каждый день.
Найдите наставника
Один из заключительных пунктов, который, возможно, является одним из самых важных: найдите хорошего наставника, готового ответить на ваши вопросы о необходимых в профессии навыках и тонкостях работы в команде Data Science. Наука о данных, машинное обучение и инженерия данных – относительно новые области знания. Новичку может потребоваться поддержка и советы опытного специалиста.
Составьте резюме и подготовьтесь к собеседованию
Качественное резюме – первый шаг на пути к работе мечты. При его составлении необходимо выполнить ряд требований:
- Указать освоенные навыки в соответствии с желаемой вакансией и ролью;
- Написать про участие в проектах и соревнованиях (это важнее формальных сертификатов);
- Указать языки программирования, а также пакеты и инструменты, которыми вы владеете;
- Указать профили на GitHub и Kaggle;
- Проверить общее качество резюме: убедитесь, что шрифты и формат являются стандартными, стремитесь классическому деловому стилю;
- Убрать лишнее. По мнению большинства рекрутеров, небольшое по объему, но емкое по содержанию резюме повышает шансы соискателя получить приглашение на собеседование.
Вы можете создать свое уникальное резюме с нуля, но проще использовать стандартные шаблоны. Несколько примеров c бесплатным доступом: Creddle, VisualCV, CVMKR и SlashCV.
После поиска вакансий и отправки резюме, основательно подготовьтесь к собеседованию. В статьях «Профессия Data Scientist и 20 вопросов на собеседовании» и «Собеседование для Data Scientists: вопросы и ответы» мы рассказали, какие подводные камни будут ждать вас на этом этапе.
Хочу подтянуть знания по математике, но не знаю, с чего начать. Что делать?
Если базовые концепции языка программирования можно достаточно быстро освоить самостоятельно, то с математикой могут возникнуть сложности. Чтобы помочь освоить математический инструментарий, «Библиотека программиста» совместно с преподавателями ВМК МГУ разработала курс по математике для Data Science, на котором вы:
- подготовитесь к сдаче вступительных экзаменов в Школу анализа данных Яндекса;
- углубитесь в математический анализ, линейную алгебру, комбинаторику, теорию вероятностей и математическую статистику;
- узнаете роль чисел, формул и функций в разработке алгоритмов машинного обучения.
- освоите специальную терминологию и сможете читать статьи по Data Science без постоянных обращений к поисковику.
Курс подойдет как начинающим специалистам, так и действующим программистам и аналитикам, которые хотят повысить свой уровень или перейти в новую область.
Комментарии