👨‍🔬️ 10 навыков, необходимых в профессии Data Scientist

ТОП-10 навыков Data Scientist, гарантирующих трудоустройство. А также подборка полезных ресурсов, чтобы достичь мастерства в этих умениях.

В статье «Научиться Data Science онлайн» мы рассказали, как овладеть профессией с нуля (был и отдельный материал об анализе больших данных).

Источник
Data Scientist как единороги. Это профессионалы с таким разнообразным набором навыков, который обычно не встречается у одного человека.

Hard Skills

1. Математическая база

Знание методов машинного обучения неотъемлемая часть работы Data Scientist. Для работы с алгоритмами машинного обучения необходимо понимание основ математического анализа (например, уравнений в частных производных), линейной алгебры, статистики (включая байесовскую теорию) и теории вероятностей. Знания статистики помогают Data Scientist критически оценить значимость данных. Математическая база также важна в разработке новых решений, оптимизации и корректировке методов существующих аналитических моделей.

Бесплатные онлайн-курсы по перечисленным областям математики с высокими оценками слушателей:

Статьи по теме

2. Программирование

Важными навыками Data Scientist также являются сбор, очистка, обработка и систематизация данных. Для этих задач и реализации самих моделей машинного обучения используются языки программирования Python, R или Rust. Какой язык выбрать для работы, мы обсуждали в статьях «От "R против Python" к "R и Python"», «Python или Rust: что выбрать для анализа данных и машинного обучения».

🐍 Самоучитель по Python для начинающих содержит 25 глав и 230 практических заданий:

  1. Особенности, сферы применения, установка, онлайн IDE
  2. Все, что нужно для изучения Python с нуля – книги, сайты, каналы и курсы
  3. Типы данных: преобразование и базовые операции
  4. Методы работы со строками
  5. Методы работы со списками и списковыми включениями
  6. Методы работы со словарями и генераторами словарей
  7. Методы работы с кортежами
  8. Методы работы со множествами
  9. Особенности цикла for
  10. Условный цикл while
  11. Функции с позиционными и именованными аргументами
  12. Анонимные функции
  13. Рекурсивные функции
  14. Функции высшего порядка, замыкания и декораторы
  15. Методы работы с файлами и файловой системой
  16. Регулярные выражения
  17. Основы скрапинга и парсинга
  18. Основы ООП: инкапсуляция и наследование
  19. Основы ООП – абстракция и полиморфизм
  20. Графический интерфейс на Tkinter
  21. Основы разработки игр на Pygame
  22. Основы работы с SQLite
  23. Основы веб-разработки на Flask
  24. Основы работы с NumPy
  25. Основы анализа данных с Pandas

Курсы R:

🤖 Библиотека data scientist’а
Больше полезных материалов вы найдете на нашем телеграм-канале «Библиотека Data scientist’а»
🤖🎓 Библиотека Data Science для собеса
Подтянуть свои знания по DS вы можете на нашем телеграм-канале «Библиотека Data Science для собеса»
🤖🧩 Библиотека задач по Data Science
Интересные задачи по DS для практики можно найти на нашем телеграм-канале «Библиотека задач по Data Science»

3. Работа с базами данных

Для выполнения большинства задач, стоящих перед Data Scientist, необходим навык программирования с использованием языка запросов SQL. Несмотря на то что NoSQL и Hadoop также являются важной частью Data Science, SQL-базы по-прежнему остается основным способом хранения данных. Data Scientist должен уметь производить сложные запросы в SQL.

Назовите меня сумасшедшим, но я хочу научить SQL каждого профессионала, работающего с данными в любом качестве. Я говорю о людях из отделов кадров, информационных технологий, продаж, маркетинга, финансов, поставщиков товаров и так далее. Если ваша цель состоит в том, чтобы добиться большего эффекта в своей работе с использованием данных, объединение Excel + SQL позволяет вам делать потрясающие вещи. Если ваша цель состоит в том, чтобы перейти в аналитику (например, в роли бизнес-аналитика), вам определенно нужны навыки SQL [...] Почему бы не начать изучать SQL в эти выходные?

Соответствующие курсы:

4. Предобработка данных

Data Scientist также занимаются подготовкой данных к анализу. Часто данные в бизнес-проектах не структурированы (видео, изображения, твиты) и не готовы для анализа. Крайне важно понимать и знать, как подготовить базу данных для получения желаемых результатов без потери информации. На этапе разведочного анализа данных (EDA) становится ясным, какие проблемы с данными необходимо решить и как нужно преобразовать базу данных для построения аналитических моделей.

Источник

5. Алгоритмы

Для работы над созданием проектов машинного обучения потребуется знание традиционных алгоритмов машинного обучения: линейная и логистическая регрессии, дерево принятия решений, метод опорных векторов. Понять тонкости работы алгоритмов машинного обучения помогут курсы:

6. Навыки, специфичные для выбранной области анализа

После получения базовых знаний вам потребуются специфические навыки для выбранной области работы. Например, глубокое обучение класс алгоритмов машинного обучения, основанный на искусственных нейронных сетях. Данные методы обычно используются для создания более сложных приложений, таких как алгоритмы распознавания и генерации объектов, обработка изображений и компьютерное зрение.

Но есть и другие области, где возможно применение как нейросетевого подхода, так и собственных решений:

Для самостоятельного изучения принципов глубокого изучения и построения нейросетей ознакомьтесь с нашим учебным планом освоения глубокого обучения и нейросетей.

Soft skills

7. Умение донести свою идею

Источник

Data Scientist должен уметь донести идею широкой аудитории. Это особенно важно в бизнес-сфере, где заказчики проекта могут не владеть техническими навыками и терминологией. Для презентации результатов потребуются навыки подачи информации, умение донести идею простым языком. Участвуйте в Data Science конференциях и онлайн-митапах. Это возможность не только прокачать навыки коммуникации и small-talk с коллегами, но и получить фидбэк.

Курсы о принципах успешной презентации:

8. Командная работа

Профессия Data Scientist подразумевает коллективную работу над проектами. Для этого необходимы навыки коммуникации и четкое видение собственной роли в команде. Успешный итог коллективного проекта напрямую зависит от эффективного взаимодействия участников. Умение услышать другое мнение и принять совместное решение важно также для командного участия в Data Science соревнованиях Kaggle.

Data Science – это командный вид спорта, а те, кто говорит: «нападающие – самые лучшие!», наверняка столкнутся с бунтом остальной команды. Каждый член команды ценен! Если каждый играет свою роль хорошо, то бизнес будет продолжать извлекать ценность из данных.
Источник

Навык успешной командной работы приходит с опытом, а для освоения тонкостей обратите внимание на следующие ресурсы:

9. Умение видеть коммерческую сторону вопроса

Ключевой навык Data Scientist для работы в бизнес-среде умение находить экономически эффективные решения с минимальными затратами ресурсов. Компании, которые используют Data Science для получения прибыли, нуждаются в специалистах, понимающих, как реализовать бизнес-идеи с помощью данных.

По мере того как организации начинают в полной мере извлекать выгоду из использования внутренних информационных активов и изучать интеграцию сотен сторонних источников данных, роль Data Scientist будет продолжать расти.

Про особенности Data Science для бизнеса:

10. Критическое мышление

Навык критического мышления помогает находить подходы и пути решения проблем, которые не видят остальные. Критическое мышление Data Scientist – это видение всех сторон проблемы, рассмотрение источников данных и проявление любопытства.

Data Scientist должен понимать бизнес-проблему, уметь моделировать и фокусироваться на том, что имеет значение для ее решения, а не то, что является посторонним и может быть проигнорировано. Этот навык больше, чем что-либо другое, определяет успех Data Scientist.
Ананд Рao, руководитель отдела глобального искусственного интеллекта и инноваций в области данных и аналитики PwC

Статьи по теме

***

Хочу подтянуть знания по математике, но не знаю, с чего начать. Что делать?

Если базовые концепции языка программирования можно достаточно быстро освоить самостоятельно, то с математикой могут возникнуть сложности. Чтобы помочь освоить математический инструментарий, «Библиотека программиста» совместно с преподавателями ВМК МГУ разработала курс по математике для Data Science, на котором вы:

  • подготовитесь к сдаче вступительных экзаменов в Школу анализа данных Яндекса;
  • углубитесь в математический анализ, линейную алгебру, комбинаторику, теорию вероятностей и математическую статистику;
  • узнаете роль чисел, формул и функций в разработке алгоритмов машинного обучения.
  • освоите специальную терминологию и сможете читать статьи по Data Science без постоянных обращений к поисковику.

Курс подойдет как начинающим специалистам, так и действующим программистам и аналитикам, которые хотят повысить свой уровень или перейти в новую область.

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ

admin
14 июля 2017

Пишем свою нейросеть: пошаговое руководство

Отличный гайд про нейросеть от теории к практике. Вы узнаете из каких элеме...
admin
23 февраля 2017

SQL за 20 минут

Предлагаем вашему вниманию статью с кричащим названием "SQL за 20 минут". К...