yuliianikolaenko 24 декабря 2020

📈 Обучение Data Science: какие знания по математике нужны специалисту по анализу данных?

Рассказываем про ключевые математические знания для Data Scientist, а также про книги, курсы и видеолекции в помощь обучающимся. Материал будет полезен не только осваивающим профессию с нуля новичкам, опытные специалисты также могут почерпнуть в нем что-то интересное.

Базовой компетенцией специалиста по Data Science является его способность анализировать и интерпретировать данные, а математика – фундамент любой научной дисциплины. Почти все методы современной науки о данных, включая машинное обучение, имеют серьезную математическую основу. Глубокое понимание стоящего за алгоритмами научного аппарата обеспечит вам преимущества на рынке труда.

Часто новички не могут перейти к перечисленным ниже дисциплинам из-за слабой базовой подготовки. 22 марта «Библиотека программиста» запускает «Онлайн-курс по математике в Data Science Lite». Занятия будут проходить дважды в неделю – за 5 месяцев квалифицированные преподаватели помогут вам восполнить пробелы в знаниях.

Во вступительных публикациях серии мы писали о том, как можно изучить Data Science онлайн с нуля, а также рассказали историю Тима Хоппера – математика, который построил карьеру аналитика данных. Сегодня речь пойдет о необходимых специалисту по Data Science математических знаниях и способах их получить.

<a href="https://miro.medium.com/max/3080/0*BR949eNWL2i-Sj4R" target="_blank" rel="noopener noreferrer nofollow">Источник</a> — Источник

Классический математический анализ

Дифференциальное и интегральное исчисление лежат в основе Data Science и машинного обучения. Они скрывается за простым на вид аналитическим решением обычной задачи наименьших квадратов в линейной регрессии или встроены в каждое обратное распространение, которое ваша нейронная сеть делает, чтобы узнать новый паттерн. Это ценные разделы, которые стоит добавить в свой набор навыков. Темы для изучения:

Функции одной переменной, пределы, лимиты, дифференцируемость;
Теоремы о средних значениях, неопределенные формы, теорема Лопиталя;
Максимумы и минимумы;
Правило продукта и цепочки;
Ряд Тейлора, концепции суммирования бесконечных рядов/интегрирования;
Фундаментальные и средние значения, теоремы интегрального исчисления, оценка определенных и неправильных интегралов;
Бета-и гамма-функции;
Функции множественных переменных, предел, непрерывность, частные производные;
Основы обыкновенных и дифференциальных уравнений в частных производных.

Где применяется?

Если вы когда-нибудь задумывались, как работает логистическая регрессия, то вам понадобятся знания о градиентном спуске (с англ. gradient descent) и понятия из исчисления: производные, пределы и цепное правило.

Линейная алгебра

Это важный раздел математики для понимания того, как алгоритмы машинного обучения работают с потоком данных для создания представления. Все алгоритмы, лежащие в основе рекомендательных систем и распознавания изображений, включают в себя матрицы и матричную алгебру. Главные темы для изучения в данном разделе:

Основные свойства матриц и векторов: скалярное умножение, линейное преобразование, транспонирование, сопряженность, ранг, детерминант;
Внутренние и внешние произведения, правило умножения матриц и различные алгоритмы, обратные матрицы;
Специальные матрицы: квадратная, единичная и треугольная матрицы, представление о разреженной и плотной матрице, единичные векторы, симметричная матрица, Эрмитова матрица, Антиэрмитова и унитарная матрицы;
Концепция матричного факторизации, LU-разложение, Метод Гаусса, решение линейной системы уравнений Ax=b;
Векторное пространство, базис, промежуток, ортогональность, ортонормированность, линейный наименьший квадрат;
Собственный вектор, диагонализация, сингулярное разложение.

Где применяется?

Все нейросетевые алгоритмы применяют методы линейной алгебры для представления и обработки сетевых структур и операций обучения, а также для уменьшения размерности набора данных с наименьшим количеством параметров.

Функции, переменные, уравнения и графики

Эта область математики включает все основы для Data Scientist, от уравнения прямой до биномиальной теоремы, а также:

Логарифм, экспоненциальные, полиномиальные функции, рациональные числа;
Основы геометрии и теоремы, тригонометрические тождества;
Вещественные и комплексные числа (с англ. real and complex numbers), основные свойства;
Ряды, суммы, неравенства;
Построение графиков, декартовых и полярных координат, конических сечений.

Где применяются?

Если вы хотите понять, как выполнить поиск из миллиона элементов после сортировки в базе данных быстрее, вы столкнетесь с понятием двоичный поиск (с англ. binary search). Чтобы понять его динамику, вам необходимо знать как устроены логарифмы и рекуррентные уравнения. Или, например, если вы хотите проанализировать временной ряд, вы можете столкнуться с такими понятиями, как периодические функции и экспоненциальный распад.

<a href="https://cdn.lynda.com/course/495322/495322-637286195691969467-16x9.jpg" target="_blank" rel="noopener noreferrer nofollow">Источник</a> — Источник

Статистика

Для Data Scientists важно понимание основных понятий статистики и теории вероятностей. Многие специалисты в этой области считают классическое (не нейронное сетевое) машинное обучение ничем иным, как статистическим обучением. Данная тема очень обширна, поэтому обратите внимание на наиболее важные концепции:

Обобщение данных и описательная статистика, центральная тенденция, дисперсия, ковариация, корреляция;
Базовая вероятность: основная идея, математическое ожидание, вероятностное исчисление, теорема Байеса, условная вероятность;
Функции распределения вероятностей: равномерные, нормальные, биномиальные, хи-квадрат, t-распределение Стьюдента, центральная предельная теорема;
Выборка, измерение, погрешность, генерация случайных чисел;
Проверка гипотез, A/B testing, доверительные интервалы, p-values;
ANOVA, t-тест;
Линейная регрессия, регуляризация.

Где применяется?

В интервью и на практике. Если сможете показать, что освоили эти понятия, вы быстро произведете хорошее впечатление, так как вам предстоит использовать их почти каждый день на этапе обработки и анализа данных.

Дискретная математика

Эта область математики не так часто обсуждается, но вся современная наука о данных использует вычислительные системы, и дискретная математика лежит в их основе. Повышение квалификации по дискретной математике будет включать в себя концепции, критически важные для применения алгоритмов и структур данных в аналитическом проекте:

Наборы, подмножества, наборы мощности;
Счетные функции, комбинаторика, счетность;
Основные методы доказательства: индукция, доказательство противоречием;
Основы индуктивной, дедуктивной и пропозициональной логики;
Основные структуры данных: стеки, очереди, графики, массивы, хэш-таблицы, деревья;
Свойства графа: связные компоненты, степень, концепции максимального потока/минимального разреза, раскраска графа;
Рекуррентные соотношения и уравнения;
Функция роста.

Где применяется?

В анализе социальных сетей необходимо знать свойства графа, быстрый алгоритм поиска и обхода сети.

Исследование операций

Эти темы наиболее актуальны в специализированных областях, таких как теоретическая информатика, теория управления или исследование операций. Базовое понимание этих мощных методов также может быть полезным и в практике машинного обучения. Почти каждый алгоритм стремится минимизировать ошибку оценки с учетом различных ограничений, что является проблемой оптимизации. Темы для изучения:

Основы оптимизации и как сформулировать задачу;
Максимумы, минимумы, выпуклая функция, глобальное решение;
Линейное программирование, Симплекс-метод;
Целочисленное программирование;
Программирование в ограничениях, задача о рюкзаке (с англ. knapsack problem);
Рандомизированные методы оптимизации.

Где применяется?

Простые задачи линейной регрессии с использованием функции наименьших квадратов потерь имеют точное аналитическое решение, но не задачи логистической регрессии. Для их решения необходимо понимать, как работает выпуклость в оптимизации.

<a href="https://www.wellesley.edu/news/2017/stories/node/120511" target="_blank" rel="noopener noreferrer nofollow">Источник</a> — Источник

Курсы

Освоить теорию по учебникам не так просто, часто для наработки математического базиса начинающие специалисты по анализу данных прибегают к помощи опытных преподавателей. В наше время это можно сделать не выходя из дома.

Статистика

Основы статистики
Intro to Descriptive Statistics (англ.)
Basic Statistics (англ.)
Bayesian Statistics: From Concept to Data Analysis (англ.)
Probability Theory, Statistics and Exploratory Data Analysis (англ.)

Анализ

Введение в математический анализ
Data Science Math Skills (англ.)
Mathematics for Data Science (англ.)
Data Science Math Skills (англ.)
Mathematics for Machine Learning: Linear Algebra (англ.)

Математика с Python и R

Видеолекции

Лекции онлайн-курса по математике в Data Science от Proglib

Последовательности и прогрессии для начинающих

Линейная алгебра для начинающих с примерами

Какая математика нужна для Data Science? Интервью с преподавателями МГУ

Комбинаторика для начинающих с примерами

Какая математика нужна в анализе данных? Для обучения нейронной сети?

Mathematics for Machine Learning | Mathematics for Data Science by Intellipaat

Statistics And Probability Tutorial | Statistics And Probability for Data Science by Edureka

Книги

Essential Math for Data Science: Take Control of Your Data with Fundamental Calculus, Linear Algebra, Probability, and Statistics by Hadrien Jean

📈 Обучение Data Science: какие знания по математике нужны специалисту по анализу данных?

Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python (второе издание на английском) by Peter C. Bruce, Andrew Bruce, Peter Gedeck

Практическая статистика для специалистов Data Science (первое издание на русском языке) от Брюса Эндрю и Брюса Питер

Mathematics for Machine Learning by A. Aldo Faisal, Cheng Soon Ong, and Marc Peter Deisenroth

Doing Bayesian Data Analysis: A Tutorial with R, JAGS, and Stan 2nd Edition by John Kruschke

***

Пытающиеся освоить профессию аналитика данных с нуля часто сталкиваются с нехваткой математической подготовки. С 22 марта «Библиотека программиста» запускает базовый онлайн-курс по математике для Data Science. Квалифицированные преподаватели помогут слушателям получить знания, без которых бессмысленно приступать к изучению более продвинутых вещей.

Интересно, хочу попробовать

📈 Обучение Data Science: какие знания по математике нужны специалисту по анализу данных?

Классический математический анализ

Где применяется?

Линейная алгебра

Где применяется?

Функции, переменные, уравнения и графики

Где применяются?

Статистика

Где применяется?

Дискретная математика

Где применяется?

Исследование операций

Где применяется?

Курсы

Статистика

Анализ

Математика с Python и R

Видеолекции

Лекции онлайн-курса по математике в Data Science от Proglib

Последовательности и прогрессии для начинающих

Линейная алгебра для начинающих с примерами

Какая математика нужна для Data Science? Интервью с преподавателями МГУ

Комбинаторика для начинающих с примерами

Какая математика нужна в анализе данных? Для обучения нейронной сети?

Mathematics for Machine Learning | Mathematics for Data Science by Intellipaat

Statistics And Probability Tutorial | Statistics And Probability for Data Science by Edureka

Книги

Essential Math for Data Science: Take Control of Your Data with Fundamental Calculus, Linear Algebra, Probability, and Statistics by Hadrien Jean

Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python (второе издание на английском) by Peter C. Bruce, Andrew Bruce, Peter Gedeck

Практическая статистика для специалистов Data Science (первое издание на русском языке) от Брюса Эндрю и Брюса Питер

Mathematics for Machine Learning by A. Aldo Faisal, Cheng Soon Ong, and Marc Peter Deisenroth

Doing Bayesian Data Analysis: A Tutorial with R, JAGS, and Stan 2nd Edition by John Kruschke

Комментарии

ВАКАНСИИ

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ

DeepFake-туториал: создаем собственный дипфейк в DeepFaceLab

13 ресурсов, чтобы выучить математику

Пишем свою нейросеть: пошаговое руководство

Классический математический анализ

Где применяется?

Линейная алгебра

Где применяется?

Функции, переменные, уравнения и графики

Где применяются?

Статистика

Где применяется?

Дискретная математика

Где применяется?

Исследование операций

Где применяется?

Курсы

Статистика

Анализ

Математика с Python и R

Видеолекции

Лекции онлайн-курса по математике в Data Science от Proglib

Последовательности и прогрессии для начинающих

Линейная алгебра для начинающих с примерами

Какая математика нужна для Data Science? Интервью с преподавателями МГУ

Комбинаторика для начинающих с примерами

Какая математика нужна в анализе данных? Для обучения нейронной сети?

Mathematics for Machine Learning | Mathematics for Data Science by Intellipaat

Statistics And Probability Tutorial | Statistics And Probability for Data Science by Edureka

Книги

Essential Math for Data Science: Take Control of Your Data with Fundamental Calculus, Linear Algebra, Probability, and Statistics by Hadrien Jean

Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python (второе издание на английском) by Peter C. Bruce, Andrew Bruce, Peter Gedeck

Практическая статистика для специалистов Data Science (первое издание на русском языке) от Брюса Эндрю и Брюса Питер

Mathematics for Machine Learning by A. Aldo Faisal, Cheng Soon Ong, and Marc Peter Deisenroth

Doing Bayesian Data Analysis: A Tutorial with R, JAGS, and Stan 2nd Edition by John Kruschke

DeepFake-туториал: создаем собственный дипфейк в DeepFaceLab

13 ресурсов, чтобы выучить математику

Пишем свою нейросеть: пошаговое руководство

Подтверждение

Авторизация

Письмо отправлено

Во время авторизации произошла ошибка

Что не так с этим материалом?

Что не так с этим комментарием?

Что не так с этим тестом?

Что не так с этой вакансией?

Что не так с этим мероприятием?

Какой баг вы нашли?

Заполните, пожалуйста, форму, чтобы мы могли с Вами связаться