yuliianikolaenko 24 декабря 2020

📈 Обучение Data Science: какие знания по математике нужны специалисту по анализу данных?

Рассказываем про ключевые математические знания для Data Scientist, а также про книги, курсы и видеолекции в помощь обучающимся. Материал будет полезен не только осваивающим профессию с нуля новичкам, опытные специалисты также могут почерпнуть в нем что-то интересное.

Базовой компетенцией специалиста по Data Science является его способность анализировать и интерпретировать данные, а математика фундамент любой научной дисциплины. Почти все методы современной науки о данных, включая машинное обучение, имеют серьезную математическую основу. Глубокое понимание стоящего за алгоритмами научного аппарата обеспечит вам преимущества на рынке труда.

Часто новички не могут перейти к перечисленным ниже дисциплинам из-за слабой базовой подготовки. 22 марта «Библиотека программиста» запускает «Онлайн-курс по математике в Data Science Lite». Занятия будут проходить дважды в неделю – за 5 месяцев квалифицированные преподаватели помогут вам восполнить пробелы в знаниях.

Во вступительных публикациях серии мы писали о том, как можно изучить Data Science онлайн с нуля, а также рассказали историю Тима Хоппера математика, который построил карьеру аналитика данных. Сегодня речь пойдет о необходимых специалисту по Data Science математических знаниях и способах их получить.

<a href="https://miro.medium.com/max/3080/0*BR949eNWL2i-Sj4R" target="_blank" rel="noopener noreferrer nofollow">Источник</a>
Источник

Классический математический анализ

Дифференциальное и интегральное исчисление лежат в основе Data Science и машинного обучения. Они скрывается за простым на вид аналитическим решением обычной задачи наименьших квадратов в линейной регрессии или встроены в каждое обратное распространение, которое ваша нейронная сеть делает, чтобы узнать новый паттерн. Это ценные разделы, которые стоит добавить в свой набор навыков. Темы для изучения:

  • Функции одной переменной, пределы, лимиты, дифференцируемость;
  • Теоремы о средних значениях, неопределенные формы, теорема Лопиталя;
  • Максимумы и минимумы;
  • Правило продукта и цепочки;
  • Ряд Тейлора, концепции суммирования бесконечных рядов/интегрирования;
  • Фундаментальные и средние значения, теоремы интегрального исчисления, оценка определенных и неправильных интегралов;
  • Бета-и гамма-функции;
  • Функции множественных переменных, предел, непрерывность, частные производные;
  • Основы обыкновенных и дифференциальных уравнений в частных производных.

Где применяется?

Если вы когда-нибудь задумывались, как работает логистическая регрессия, то вам понадобятся знания о градиентном спуске (с англ. gradient descent) и понятия из исчисления: производные, пределы и цепное правило.

Линейная алгебра

Это важный раздел математики для понимания того, как алгоритмы машинного обучения работают с потоком данных для создания представления. Все алгоритмы, лежащие в основе рекомендательных систем и распознавания изображений, включают в себя матрицы и матричную алгебру. Главные темы для изучения в данном разделе:

  • Основные свойства матриц и векторов: скалярное умножение, линейное преобразование, транспонирование, сопряженность, ранг, детерминант;
  • Внутренние и внешние произведения, правило умножения матриц и различные алгоритмы, обратные матрицы;
  • Специальные матрицы: квадратная, единичная и треугольная матрицы, представление о разреженной и плотной матрице, единичные векторы, симметричная матрица, Эрмитова матрица, Антиэрмитова и унитарная матрицы;
  • Концепция матричного факторизации, LU-разложение, Метод Гаусса, решение линейной системы уравнений Ax=b;
  • Векторное пространство, базис, промежуток, ортогональность, ортонормированность, линейный наименьший квадрат;
  • Собственный вектор, диагонализация, сингулярное разложение.

Где применяется?

Все нейросетевые алгоритмы применяют методы линейной алгебры для представления и обработки сетевых структур и операций обучения, а также для уменьшения размерности набора данных с наименьшим количеством параметров.

Функции, переменные, уравнения и графики

Эта область математики включает все основы для Data Scientist, от уравнения прямой до биномиальной теоремы, а также:

  • Логарифм, экспоненциальные, полиномиальные функции, рациональные числа;
  • Основы геометрии и теоремы, тригонометрические тождества;
  • Вещественные и комплексные числа (с англ. real and complex numbers), основные свойства;
  • Ряды, суммы, неравенства;
  • Построение графиков, декартовых и полярных координат, конических сечений.

Где применяются?

Если вы хотите понять, как выполнить поиск из миллиона элементов после сортировки в базе данных быстрее, вы столкнетесь с понятием двоичный поиск (с англ. binary search). Чтобы понять его динамику, вам необходимо знать как устроены логарифмы и рекуррентные уравнения. Или, например, если вы хотите проанализировать временной ряд, вы можете столкнуться с такими понятиями, как периодические функции и экспоненциальный распад.

<a href="https://cdn.lynda.com/course/495322/495322-637286195691969467-16x9.jpg" target="_blank" rel="noopener noreferrer nofollow">Источник</a>
Источник

Статистика

Для Data Scientists важно понимание основных понятий статистики и теории вероятностей. Многие специалисты в этой области считают классическое (не нейронное сетевое) машинное обучение ничем иным, как статистическим обучением. Данная тема очень обширна, поэтому обратите внимание на наиболее важные концепции:

  • Обобщение данных и описательная статистика, центральная тенденция, дисперсия, ковариация, корреляция;
  • Базовая вероятность: основная идея, математическое ожидание, вероятностное исчисление, теорема Байеса, условная вероятность;
  • Функции распределения вероятностей: равномерные, нормальные, биномиальные, хи-квадрат, t-распределение Стьюдента, центральная предельная теорема;
  • Выборка, измерение, погрешность, генерация случайных чисел;
  • Проверка гипотез, A/B testing, доверительные интервалы, p-values;
  • ANOVA, t-тест;
  • Линейная регрессия, регуляризация.

Где применяется?

В интервью и на практике. Если сможете показать, что освоили эти понятия, вы быстро произведете хорошее впечатление, так как вам предстоит использовать их почти каждый день на этапе обработки и анализа данных.

Дискретная математика

Эта область математики не так часто обсуждается, но вся современная наука о данных использует вычислительные системы, и дискретная математика лежит в их основе. Повышение квалификации по дискретной математике будет включать в себя концепции, критически важные для применения алгоритмов и структур данных в аналитическом проекте:

  • Наборы, подмножества, наборы мощности;
  • Счетные функции, комбинаторика, счетность;
  • Основные методы доказательства: индукция, доказательство противоречием;
  • Основы индуктивной, дедуктивной и пропозициональной логики;
  • Основные структуры данных: стеки, очереди, графики, массивы, хэш-таблицы, деревья;
  • Свойства графа: связные компоненты, степень, концепции максимального потока/минимального разреза, раскраска графа;
  • Рекуррентные соотношения и уравнения;
  • Функция роста.

Где применяется?

В анализе социальных сетей необходимо знать свойства графа, быстрый алгоритм поиска и обхода сети.

Исследование операций

Эти темы наиболее актуальны в специализированных областях, таких как теоретическая информатика, теория управления или исследование операций. Базовое понимание этих мощных методов также может быть полезным и в практике машинного обучения. Почти каждый алгоритм стремится минимизировать ошибку оценки с учетом различных ограничений, что является проблемой оптимизации. Темы для изучения:

  • Основы оптимизации и как сформулировать задачу;
  • Максимумы, минимумы, выпуклая функция, глобальное решение;
  • Линейное программирование, Симплекс-метод;
  • Целочисленное программирование;
  • Программирование в ограничениях, задача о рюкзаке (с англ. knapsack problem);
  • Рандомизированные методы оптимизации.

Где применяется?

Простые задачи линейной регрессии с использованием функции наименьших квадратов потерь имеют точное аналитическое решение, но не задачи логистической регрессии. Для их решения необходимо понимать, как работает выпуклость в оптимизации.

<a href="https://www.wellesley.edu/news/2017/stories/node/120511" target="_blank" rel="noopener noreferrer nofollow">Источник</a>
Источник

Курсы

Освоить теорию по учебникам не так просто, часто для наработки математического базиса начинающие специалисты по анализу данных прибегают к помощи опытных преподавателей. В наше время это можно сделать не выходя из дома.

Статистика

  1. Основы статистики
  2. Intro to Descriptive Statistics (англ.)
  3. Basic Statistics (англ.)
  4. Bayesian Statistics: From Concept to Data Analysis (англ.)
  5. Probability Theory, Statistics and Exploratory Data Analysis (англ.)

Анализ

  1. Введение в математический анализ
  2. Data Science Math Skills (англ.)
  3. Mathematics for Data Science (англ.)
  4. Data Science Math Skills (англ.)
  5. Mathematics for Machine Learning: Linear Algebra (англ.)

Математика с Python и R

  1. Практикум по математике и Python
  2. Introduction to Probability and Data with R (англ.)

Видеолекции

Лекции онлайн-курса по математике в Data Science от Proglib

Последовательности и прогрессии для начинающих

Линейная алгебра для начинающих с примерами

Какая математика нужна для Data Science? Интервью с преподавателями МГУ

Комбинаторика для начинающих с примерами

Какая математика нужна в анализе данных? Для обучения нейронной сети?

Mathematics for Machine Learning | Mathematics for Data Science by Intellipaat

Statistics And Probability Tutorial | Statistics And Probability for Data Science by Edureka

Книги

Essential Math for Data Science: Take Control of Your Data with Fundamental Calculus, Linear Algebra, Probability, and Statistics by Hadrien Jean

Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python (второе издание на английском) by Peter C. Bruce, Andrew Bruce, Peter Gedeck

Практическая статистика для специалистов Data Science (первое издание на русском языке) от Брюса Эндрю и Брюса Питер

Mathematics for Machine Learning by A. Aldo Faisal, Cheng Soon Ong, and Marc Peter Deisenroth

Doing Bayesian Data Analysis: A Tutorial with R, JAGS, and Stan 2nd Edition by John Kruschke

***

Пытающиеся освоить профессию аналитика данных с нуля часто сталкиваются с нехваткой математической подготовки. С 22 марта «Библиотека программиста» запускает базовый онлайн-курс по математике для Data Science. Квалифицированные преподаватели помогут слушателям получить знания, без которых бессмысленно приступать к изучению более продвинутых вещей.

МЕРОПРИЯТИЯ

Комментарии

ВАКАНСИИ

Добавить вакансию

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ