В статье «Научиться Data Science онлайн» мы рассказали, как овладеть профессией с нуля (был и отдельный материал об анализе больших данных). В этой статье, подготовленной при поддержке Факультета Искусственного интеллекта онлайн-университета GeekBrains, мы сосредоточимся на ключевых навыках, необходимых тем, кто хочет стать Data Scientist.

Data Scientist как единороги. Это профессионалы с таким разнообразным набором навыков, который обычно не встречается у одного человека.
Hard Skills
1. Математическая база
Знание методов машинного обучения – неотъемлемая часть работы Data Scientist. Для работы с алгоритмами машинного обучения необходимо понимание основ математического анализа (например, уравнений в частных производных), линейной алгебры, статистики (включая байесовскую теорию) и теории вероятностей. Знания статистики помогают Data Scientist критически оценить значимость данных. Математическая база также важна в разработке новых решений, оптимизации и корректировке методов существующих аналитических моделей.
Бесплатные онлайн-курсы по перечисленным областям математики с высокими оценками слушателей:
- Основы статистики
- Intro to Descriptive Statistics (англ.)
- Bayesian Statistics: From Concept to Data Analysis (англ.)
- Введение в математический анализ
- Практикум по математике и Python
- Data Science Math Skills (англ.)
- Mathematics for Data Science (англ.)
2. Программирование
Важными навыками Data Scientist также являются сбор, очистка, обработка и систематизация данных. Для этих задач и реализации самих моделей машинного обучения используются языки программирования Python и R. Какой язык выбрать для работы, мы обсуждали в статье «От "R против Python" к "R и Python"».
Курсы Python:
- Программирование на Python
- Питон Тьютор
- Основы программирования на Python
- DataCamp (англ.)
- Google’s Python Class (англ.)
Курсы R:
3. Работа с базами данных
Для выполнения большинства задач, стоящих перед Data Scientist, необходим навык программирования с использованием языка запросов SQL. Несмотря на то что NoSQL и Hadoop также являются важной частью Data Science, SQL-базы по-прежнему остается основным способом хранения данных. Data Scientist должен уметь производить сложные запросы в SQL.
Назовите меня сумасшедшим, но я хочу научить SQL каждого профессионала, работающего с данными в любом качестве. Я говорю о людях из отделов кадров, информационных технологий, продаж, маркетинга, финансов, поставщиков товаров и так далее. Если ваша цель состоит в том, чтобы добиться большего эффекта в своей работе с использованием данных, объединение Excel + SQL позволяет вам делать потрясающие вещи. Если ваша цель состоит в том, чтобы перейти в аналитику (например, в роли бизнес-аналитика), вам определенно нужны навыки SQL [...] Почему бы не начать изучать SQL в эти выходные?
Соответствующие курсы:
- Введение в базы данных
- Introduction to Structured Query Language (SQL) (англ.)
- SQL for Data Science (англ.)
4. Предобработка данных
Data Scientist также занимаются подготовкой данных к анализу. Часто данные в бизнес-проектах не структурированы (видео, изображения, твиты) и не готовы для анализа. Крайне важно понимать и знать, как подготовить базу данных для получения желаемых результатов без потери информации. На этапе разведочного анализа данных (EDA) становится ясным, какие проблемы с данными необходимо решить и как нужно преобразовать базу данных для построения аналитических моделей.
- Data Science Methodology. Data Preparation (англ.)
- Exploratory Data Analysis (англ.)

5. Алгоритмы
Для работы над созданием проектов машинного обучения потребуется знание традиционных алгоритмов машинного обучения: линейная и логистическая регрессии, дерево принятия решений, метод опорных векторов. Понять тонкости работы алгоритмов машинного обучения помогут курсы:
- Алгоритмы: теория и практика. Методы
- Machine Learning Algorithms: Supervised Learning Tip to Tail (англ.)
6. Навыки, специфичные для выбранной области анализа
После получения базовых знаний вам потребуются специфические навыки для выбранной области работы. Например, глубокое обучение – класс алгоритмов машинного обучения, основанный на искусственных нейронных сетях. Данные методы обычно используются для создания более сложных приложений, таких как алгоритмы распознавания и генерации объектов, обработка изображений и компьютерное зрение.
Но есть и другие области, где возможно применение как нейросетевого подхода, так и собственных решений:
- обработка естественного языка
- анализ временных рядов
- обучение с подкреплением
- системы рекомендаций
Для самостоятельного изучения принципов глубокого изучения и построения нейросетей ознакомьтесь с нашим учебным планом освоения глубокого обучения и нейросетей.
Soft skills
7. Умение донести свою идею

Data Scientist должен уметь донести идею широкой аудитории. Это особенно важно в бизнес-сфере, где заказчики проекта могут не владеть техническими навыками и терминологией. Для презентации результатов потребуются навыки подачи информации, умение донести идею простым языком. Участвуйте в Data Science конференциях и онлайн-митапах. Это возможность не только прокачать навыки коммуникации и small-talk с коллегами, но и получить фидбэк.
Курсы о принципах успешной презентации:
- Data Analysis and Presentation Skills: the PwC Approach Specialization (англ.);
- Communicating Business Analytics Results (англ.) – курс Университета Колорадо;
- A Data Scientist’s Guide to Communicating Results (англ.) – гид для освоения навыков эффективной презентации.
8. Командная работа
Профессия Data Scientist подразумевает коллективную работу над проектами. Для этого необходимы навыки коммуникации и четкое видение собственной роли в команде. Успешный итог коллективного проекта напрямую зависит от эффективного взаимодействия участников. Умение услышать другое мнение и принять совместное решение важно также для командного участия в Data Science соревнованиях Kaggle.
Data Science – это командный вид спорта, а те, кто говорит: «нападающие – самые лучшие!», наверняка столкнутся с бунтом остальной команды. Каждый член команды ценен! Если каждый играет свою роль хорошо, то бизнес будет продолжать извлекать ценность из данных.

Навык успешной командной работы приходит с опытом, а для освоения тонкостей обратите внимание на следующие ресурсы:
- Working in Teams: A Practical Guide – курс, посвященный тонкостям работы в команде и разрешению конфликтов;
- книга 17 неопровержимых законов работы в команде Джона Максвелла;
- Паттерны поведения проектных команд – руководство Тома Демарко и Тимоти Листер.
9. Умение видеть коммерческую сторону вопроса
Ключевой навык Data Scientist для работы в бизнес-среде – умение находить экономически эффективные решения с минимальными затратами ресурсов. Компании, которые используют Data Science для получения прибыли, нуждаются в специалистах, понимающих, как реализовать бизнес-идеи с помощью данных.
По мере того как организации начинают в полной мере извлекать выгоду из использования внутренних информационных активов и изучать интеграцию сотен сторонних источников данных, роль Data Scientist будет продолжать расти.
Про особенности Data Science для бизнеса:
- Data Science for Business (англ.) – интерактивный курс от DataCamp;
- A Guide to becoming Business-Oriented Data Scientist (англ.) – гид по тонкостям Data Science в бизнес-приложениях.
10. Критическое мышление
Навык критического мышления помогает находить подходы и пути решения проблем, которые не видят остальные. Критическое мышление Data Scientist – это видение всех сторон проблемы, рассмотрение источников данных и проявление любопытства.
Data Scientist должен понимать бизнес-проблему, уметь моделировать и фокусироваться на том, что имеет значение для ее решения, а не то, что является посторонним и может быть проигнорировано. Этот навык больше, чем что-либо другое, определяет успех Data Scientist.
Хочу подтянуть знания по математике, но не знаю, с чего начать. Что делать?
Если базовые концепции языка программирования можно достаточно быстро освоить самостоятельно, то с математикой могут возникнуть сложности. Чтобы помочь освоить математический инструментарий, «Библиотека программиста» совместно с преподавателями ВМК МГУ разработала курс по математике для Data Science, на котором вы:
- подготовитесь к сдаче вступительных экзаменов в Школу анализа данных Яндекса;
- углубитесь в математический анализ, линейную алгебру, комбинаторику, теорию вероятностей и математическую статистику;
- узнаете роль чисел, формул и функций в разработке алгоритмов машинного обучения.
- освоите специальную терминологию и сможете читать статьи по Data Science без постоянных обращений к поисковику.
Курс подойдет как начинающим специалистам, так и действующим программистам и аналитикам, которые хотят повысить свой уровень или перейти в новую область.
Комментарии