В статье «Научиться Data Science онлайн» мы рассказали, как овладеть профессией с нуля (был и отдельный материал об анализе больших данных).
Data Scientist как единороги. Это профессионалы с таким разнообразным набором навыков, который обычно не встречается у одного человека.
Hard Skills
1. Математическая база
Знание методов машинного обучения – неотъемлемая часть работы Data Scientist. Для работы с алгоритмами машинного обучения необходимо понимание основ математического анализа (например, уравнений в частных производных), линейной алгебры, статистики (включая байесовскую теорию) и теории вероятностей. Знания статистики помогают Data Scientist критически оценить значимость данных. Математическая база также важна в разработке новых решений, оптимизации и корректировке методов существующих аналитических моделей.
Бесплатные онлайн-курсы по перечисленным областям математики с высокими оценками слушателей:
- Основы статистики
- Intro to Descriptive Statistics (англ.)
- Bayesian Statistics: From Concept to Data Analysis (англ.)
- Введение в математический анализ
- Практикум по математике и Python
- Data Science Math Skills (англ.)
Статьи по теме
- 🎲 Теория вероятностей: где она используется и нужна ли она рядовому разработчику
- ⚗️ 5 областей применения линейной алгебры в программировании
- 🎡 Что такое комбинаторика и как она используется в программировании
- 🧮 Что такое математический анализ и как он используется в программировании
- ➕➖ Нужна ли математика программисту?
2. Программирование
Важными навыками Data Scientist также являются сбор, очистка, обработка и систематизация данных. Для этих задач и реализации самих моделей машинного обучения используются языки программирования Python, R или Rust. Какой язык выбрать для работы, мы обсуждали в статьях «От "R против Python" к "R и Python"», «Python или Rust: что выбрать для анализа данных и машинного обучения».
🐍 Самоучитель по Python для начинающих содержит 25 глав и 230 практических заданий:
- Особенности, сферы применения, установка, онлайн IDE
- Все, что нужно для изучения Python с нуля – книги, сайты, каналы и курсы
- Типы данных: преобразование и базовые операции
- Методы работы со строками
- Методы работы со списками и списковыми включениями
- Методы работы со словарями и генераторами словарей
- Методы работы с кортежами
- Методы работы со множествами
- Особенности цикла for
- Условный цикл while
- Функции с позиционными и именованными аргументами
- Анонимные функции
- Рекурсивные функции
- Функции высшего порядка, замыкания и декораторы
- Методы работы с файлами и файловой системой
- Регулярные выражения
- Основы скрапинга и парсинга
- Основы ООП: инкапсуляция и наследование
- Основы ООП – абстракция и полиморфизм
- Графический интерфейс на Tkinter
- Основы разработки игр на Pygame
- Основы работы с SQLite
- Основы веб-разработки на Flask
- Основы работы с NumPy
- Основы анализа данных с Pandas
Курсы R:
3. Работа с базами данных
Для выполнения большинства задач, стоящих перед Data Scientist, необходим навык программирования с использованием языка запросов SQL. Несмотря на то что NoSQL и Hadoop также являются важной частью Data Science, SQL-базы по-прежнему остается основным способом хранения данных. Data Scientist должен уметь производить сложные запросы в SQL.
Назовите меня сумасшедшим, но я хочу научить SQL каждого профессионала, работающего с данными в любом качестве. Я говорю о людях из отделов кадров, информационных технологий, продаж, маркетинга, финансов, поставщиков товаров и так далее. Если ваша цель состоит в том, чтобы добиться большего эффекта в своей работе с использованием данных, объединение Excel + SQL позволяет вам делать потрясающие вещи. Если ваша цель состоит в том, чтобы перейти в аналитику (например, в роли бизнес-аналитика), вам определенно нужны навыки SQL [...] Почему бы не начать изучать SQL в эти выходные?
Соответствующие курсы:
- Введение в базы данных
- Introduction to Structured Query Language (SQL) (англ.)
- SQL for Data Science (англ.)
4. Предобработка данных
Data Scientist также занимаются подготовкой данных к анализу. Часто данные в бизнес-проектах не структурированы (видео, изображения, твиты) и не готовы для анализа. Крайне важно понимать и знать, как подготовить базу данных для получения желаемых результатов без потери информации. На этапе разведочного анализа данных (EDA) становится ясным, какие проблемы с данными необходимо решить и как нужно преобразовать базу данных для построения аналитических моделей.
- Data Science Methodology. Data Preparation (англ.)
- Exploratory Data Analysis (англ.)
5. Алгоритмы
Для работы над созданием проектов машинного обучения потребуется знание традиционных алгоритмов машинного обучения: линейная и логистическая регрессии, дерево принятия решений, метод опорных векторов. Понять тонкости работы алгоритмов машинного обучения помогут курсы:
- Алгоритмы: теория и практика. Методы
- Machine Learning Algorithms: Supervised Learning Tip to Tail (англ.)
6. Навыки, специфичные для выбранной области анализа
После получения базовых знаний вам потребуются специфические навыки для выбранной области работы. Например, глубокое обучение – класс алгоритмов машинного обучения, основанный на искусственных нейронных сетях. Данные методы обычно используются для создания более сложных приложений, таких как алгоритмы распознавания и генерации объектов, обработка изображений и компьютерное зрение.
Но есть и другие области, где возможно применение как нейросетевого подхода, так и собственных решений:
- обработка естественного языка
- обучение с подкреплением
- системы рекомендаций
Для самостоятельного изучения принципов глубокого изучения и построения нейросетей ознакомьтесь с нашим учебным планом освоения глубокого обучения и нейросетей.
Soft skills
7. Умение донести свою идею
Data Scientist должен уметь донести идею широкой аудитории. Это особенно важно в бизнес-сфере, где заказчики проекта могут не владеть техническими навыками и терминологией. Для презентации результатов потребуются навыки подачи информации, умение донести идею простым языком. Участвуйте в Data Science конференциях и онлайн-митапах. Это возможность не только прокачать навыки коммуникации и small-talk с коллегами, но и получить фидбэк.
Курсы о принципах успешной презентации:
- Data Analysis and Presentation Skills: the PwC Approach Specialization (англ.);
- Communicating Business Analytics Results (англ.) – курс Университета Колорадо;
- A Data Scientist’s Guide to Communicating Results (англ.) – гид для освоения навыков эффективной презентации.
8. Командная работа
Профессия Data Scientist подразумевает коллективную работу над проектами. Для этого необходимы навыки коммуникации и четкое видение собственной роли в команде. Успешный итог коллективного проекта напрямую зависит от эффективного взаимодействия участников. Умение услышать другое мнение и принять совместное решение важно также для командного участия в Data Science соревнованиях Kaggle.
Data Science – это командный вид спорта, а те, кто говорит: «нападающие – самые лучшие!», наверняка столкнутся с бунтом остальной команды. Каждый член команды ценен! Если каждый играет свою роль хорошо, то бизнес будет продолжать извлекать ценность из данных.
Навык успешной командной работы приходит с опытом, а для освоения тонкостей обратите внимание на следующие ресурсы:
- Working in Teams: A Practical Guide – курс, посвященный тонкостям работы в команде и разрешению конфликтов;
- книга 17 неопровержимых законов работы в команде Джона Максвелла;
- Балдеющие от адреналина и зомбированные шаблонами – руководство Тома Демарко и Тимоти Листер.
9. Умение видеть коммерческую сторону вопроса
Ключевой навык Data Scientist для работы в бизнес-среде – умение находить экономически эффективные решения с минимальными затратами ресурсов. Компании, которые используют Data Science для получения прибыли, нуждаются в специалистах, понимающих, как реализовать бизнес-идеи с помощью данных.
По мере того как организации начинают в полной мере извлекать выгоду из использования внутренних информационных активов и изучать интеграцию сотен сторонних источников данных, роль Data Scientist будет продолжать расти.
Про особенности Data Science для бизнеса:
- Data Science for Business (англ.) – интерактивный курс от DataCamp;
- A Guide to becoming Business-Oriented Data Scientist (англ.) – гид по тонкостям Data Science в бизнес-приложениях.
10. Критическое мышление
Навык критического мышления помогает находить подходы и пути решения проблем, которые не видят остальные. Критическое мышление Data Scientist – это видение всех сторон проблемы, рассмотрение источников данных и проявление любопытства.
Data Scientist должен понимать бизнес-проблему, уметь моделировать и фокусироваться на том, что имеет значение для ее решения, а не то, что является посторонним и может быть проигнорировано. Этот навык больше, чем что-либо другое, определяет успех Data Scientist.
Статьи по теме
- ⚖️ 25 курсов, книг и подкастов для развития критического мышления
- 🧠⚙️ Как научиться критически мыслить: 6 эффективных способов
Хочу подтянуть знания по математике, но не знаю, с чего начать. Что делать?
Если базовые концепции языка программирования можно достаточно быстро освоить самостоятельно, то с математикой могут возникнуть сложности. Чтобы помочь освоить математический инструментарий, «Библиотека программиста» совместно с преподавателями ВМК МГУ разработала курс по математике для Data Science, на котором вы:
- подготовитесь к сдаче вступительных экзаменов в Школу анализа данных Яндекса;
- углубитесь в математический анализ, линейную алгебру, комбинаторику, теорию вероятностей и математическую статистику;
- узнаете роль чисел, формул и функций в разработке алгоритмов машинного обучения.
- освоите специальную терминологию и сможете читать статьи по Data Science без постоянных обращений к поисковику.
Курс подойдет как начинающим специалистам, так и действующим программистам и аналитикам, которые хотят повысить свой уровень или перейти в новую область.
Комментарии