Базовой компетенцией специалиста по Data Science является его способность анализировать и интерпретировать данные, а математика – фундамент любой научной дисциплины. Почти все методы современной науки о данных, включая машинное обучение, имеют серьезную математическую основу. Глубокое понимание стоящего за алгоритмами научного аппарата обеспечит вам преимущества на рынке труда.
Во вступительных публикациях серии мы писали о том, как можно изучить Data Science онлайн с нуля, а также рассказали историю Тима Хоппера – математика, который построил карьеру аналитика данных. Сегодня речь пойдет о необходимых специалисту по Data Science математических знаниях и способах их получить.
Классический математический анализ
Дифференциальное и интегральное исчисление лежат в основе Data Science и машинного обучения. Они скрывается за простым на вид аналитическим решением обычной задачи наименьших квадратов в линейной регрессии или встроены в каждое обратное распространение, которое ваша нейронная сеть делает, чтобы узнать новый паттерн. Это ценные разделы, которые стоит добавить в свой набор навыков. Темы для изучения:
- Функции одной переменной, пределы, лимиты, дифференцируемость;
- Теоремы о средних значениях, неопределенные формы, теорема Лопиталя;
- Максимумы и минимумы;
- Правило продукта и цепочки;
- Ряд Тейлора, концепции суммирования бесконечных рядов/интегрирования;
- Фундаментальные и средние значения, теоремы интегрального исчисления, оценка определенных и неправильных интегралов;
- Бета-и гамма-функции;
- Функции множественных переменных, предел, непрерывность, частные производные;
- Основы обыкновенных и дифференциальных уравнений в частных производных.
Где применяется?
Если вы когда-нибудь задумывались, как работает логистическая регрессия, то вам понадобятся знания о градиентном спуске (с англ. gradient descent) и понятия из исчисления: производные, пределы и цепное правило.
Линейная алгебра
Это важный раздел математики для понимания того, как алгоритмы машинного обучения работают с потоком данных для создания представления. Все алгоритмы, лежащие в основе рекомендательных систем и распознавания изображений, включают в себя матрицы и матричную алгебру. Главные темы для изучения в данном разделе:
- Основные свойства матриц и векторов: скалярное умножение, линейное преобразование, транспонирование, сопряженность, ранг, детерминант;
- Внутренние и внешние произведения, правило умножения матриц и различные алгоритмы, обратные матрицы;
- Специальные матрицы: квадратная, единичная и треугольная матрицы, представление о разреженной и плотной матрице, единичные векторы, симметричная матрица, Эрмитова матрица, Антиэрмитова и унитарная матрицы;
- Концепция матричного факторизации, LU-разложение, Метод Гаусса, решение линейной системы уравнений Ax=b;
- Векторное пространство, базис, промежуток, ортогональность, ортонормированность, линейный наименьший квадрат;
- Собственный вектор, диагонализация, сингулярное разложение.
Где применяется?
Все нейросетевые алгоритмы применяют методы линейной алгебры для представления и обработки сетевых структур и операций обучения, а также для уменьшения размерности набора данных с наименьшим количеством параметров.
Функции, переменные, уравнения и графики
Эта область математики включает все основы для Data Scientist, от уравнения прямой до биномиальной теоремы, а также:
- Логарифм, экспоненциальные, полиномиальные функции, рациональные числа;
- Основы геометрии и теоремы, тригонометрические тождества;
- Вещественные и комплексные числа (с англ. real and complex numbers), основные свойства;
- Ряды, суммы, неравенства;
- Построение графиков, декартовых и полярных координат, конических сечений.
Где применяются?
Если вы хотите понять, как выполнить поиск из миллиона элементов после сортировки в базе данных быстрее, вы столкнетесь с понятием двоичный поиск (с англ. binary search). Чтобы понять его динамику, вам необходимо знать как устроены логарифмы и рекуррентные уравнения. Или, например, если вы хотите проанализировать временной ряд, вы можете столкнуться с такими понятиями, как периодические функции и экспоненциальный распад.
Статистика
Для Data Scientists важно понимание основных понятий статистики и теории вероятностей. Многие специалисты в этой области считают классическое (не нейронное сетевое) машинное обучение ничем иным, как статистическим обучением. Данная тема очень обширна, поэтому обратите внимание на наиболее важные концепции:
- Обобщение данных и описательная статистика, центральная тенденция, дисперсия, ковариация, корреляция;
- Базовая вероятность: основная идея, математическое ожидание, вероятностное исчисление, теорема Байеса, условная вероятность;
- Функции распределения вероятностей: равномерные, нормальные, биномиальные, хи-квадрат, t-распределение Стьюдента, центральная предельная теорема;
- Выборка, измерение, погрешность, генерация случайных чисел;
- Проверка гипотез, A/B testing, доверительные интервалы, p-values;
- ANOVA, t-тест;
- Линейная регрессия, регуляризация.
Где применяется?
В интервью и на практике. Если сможете показать, что освоили эти понятия, вы быстро произведете хорошее впечатление, так как вам предстоит использовать их почти каждый день на этапе обработки и анализа данных.
Дискретная математика
Эта область математики не так часто обсуждается, но вся современная наука о данных использует вычислительные системы, и дискретная математика лежит в их основе. Повышение квалификации по дискретной математике будет включать в себя концепции, критически важные для применения алгоритмов и структур данных в аналитическом проекте:
- Наборы, подмножества, наборы мощности;
- Счетные функции, комбинаторика, счетность;
- Основные методы доказательства: индукция, доказательство противоречием;
- Основы индуктивной, дедуктивной и пропозициональной логики;
- Основные структуры данных: стеки, очереди, графики, массивы, хэш-таблицы, деревья;
- Свойства графа: связные компоненты, степень, концепции максимального потока/минимального разреза, раскраска графа;
- Рекуррентные соотношения и уравнения;
- Функция роста.
Где применяется?
В анализе социальных сетей необходимо знать свойства графа, быстрый алгоритм поиска и обхода сети.
Исследование операций
Эти темы наиболее актуальны в специализированных областях, таких как теоретическая информатика, теория управления или исследование операций. Базовое понимание этих мощных методов также может быть полезным и в практике машинного обучения. Почти каждый алгоритм стремится минимизировать ошибку оценки с учетом различных ограничений, что является проблемой оптимизации. Темы для изучения:
- Основы оптимизации и как сформулировать задачу;
- Максимумы, минимумы, выпуклая функция, глобальное решение;
- Линейное программирование, Симплекс-метод;
- Целочисленное программирование;
- Программирование в ограничениях, задача о рюкзаке (с англ. knapsack problem);
- Рандомизированные методы оптимизации.
Где применяется?
Простые задачи линейной регрессии с использованием функции наименьших квадратов потерь имеют точное аналитическое решение, но не задачи логистической регрессии. Для их решения необходимо понимать, как работает выпуклость в оптимизации.
Курсы
Освоить теорию по учебникам не так просто, часто для наработки математического базиса начинающие специалисты по анализу данных прибегают к помощи опытных преподавателей. В наше время это можно сделать не выходя из дома.
Статистика
- Основы статистики
- Intro to Descriptive Statistics (англ.)
- Basic Statistics (англ.)
- Bayesian Statistics: From Concept to Data Analysis (англ.)
- Probability Theory, Statistics and Exploratory Data Analysis (англ.)
Анализ
- Введение в математический анализ
- Data Science Math Skills (англ.)
- Mathematics for Data Science (англ.)
- Data Science Math Skills (англ.)
- Mathematics for Machine Learning: Linear Algebra (англ.)
Математика с Python и R
Видеолекции
Лекции онлайн-курса по математике в Data Science от Proglib
Последовательности и прогрессии для начинающих
Линейная алгебра для начинающих с примерами
Какая математика нужна для Data Science? Интервью с преподавателями МГУ
Комбинаторика для начинающих с примерами
Какая математика нужна в анализе данных? Для обучения нейронной сети?
Mathematics for Machine Learning | Mathematics for Data Science by Intellipaat
Statistics And Probability Tutorial | Statistics And Probability for Data Science by Edureka
Книги
Essential Math for Data Science: Take Control of Your Data with Fundamental Calculus, Linear Algebra, Probability, and Statistics by Hadrien Jean
Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python (второе издание на английском) by Peter C. Bruce, Andrew Bruce, Peter Gedeck
Практическая статистика для специалистов Data Science (первое издание на русском языке) от Брюса Эндрю и Брюса Питер
Mathematics for Machine Learning by A. Aldo Faisal, Cheng Soon Ong, and Marc Peter Deisenroth
Doing Bayesian Data Analysis: A Tutorial with R, JAGS, and Stan 2nd Edition by John Kruschke
Пытающиеся освоить профессию аналитика данных с нуля часто сталкиваются с нехваткой математической подготовки. С 22 марта «Библиотека программиста» запускает базовый онлайн-курс по математике для Data Science. Квалифицированные преподаватели помогут слушателям получить знания, без которых бессмысленно приступать к изучению более продвинутых вещей.
Комментарии