Хочешь уверенно проходить IT-интервью?

Мы понимаем, как сложно подготовиться: стресс, алгоритмы, вопросы, от которых голова идёт кругом. Но с AI тренажёром всё гораздо проще.
💡 Почему Т1 тренажёр — это мастхэв?
- Получишь настоящую обратную связь: где затык, что подтянуть и как стать лучше
- Научишься не только решать задачи, но и объяснять своё решение так, чтобы интервьюер сказал: "Вау!".
- Освоишь все этапы собеседования, от вопросов по алгоритмам до диалога о твоих целях.
Зачем листать миллион туториалов? Просто зайди в Т1 тренажёр, потренируйся и уверенно удиви интервьюеров. Мы не обещаем лёгкой прогулки, но обещаем, что будешь готов!
Реклама. ООО «Смарт Гико», ИНН 7743264341. Erid 2VtzqwP8vqy
Базовой компетенцией специалиста по Data Science является его способность анализировать и интерпретировать данные, а математика – фундамент любой научной дисциплины. Почти все методы современной науки о данных, включая машинное обучение, имеют серьезную математическую основу. Глубокое понимание стоящего за алгоритмами научного аппарата обеспечит вам преимущества на рынке труда.
Во вступительных публикациях серии мы писали о том, как можно изучить Data Science онлайн с нуля, а также рассказали историю Тима Хоппера – математика, который построил карьеру аналитика данных. Сегодня речь пойдет о необходимых специалисту по Data Science математических знаниях и способах их получить.

Классический математический анализ
Дифференциальное и интегральное исчисление лежат в основе Data Science и машинного обучения. Они скрывается за простым на вид аналитическим решением обычной задачи наименьших квадратов в линейной регрессии или встроены в каждое обратное распространение, которое ваша нейронная сеть делает, чтобы узнать новый паттерн. Это ценные разделы, которые стоит добавить в свой набор навыков. Темы для изучения:
- Функции одной переменной, пределы, лимиты, дифференцируемость;
- Теоремы о средних значениях, неопределенные формы, теорема Лопиталя;
- Максимумы и минимумы;
- Правило продукта и цепочки;
- Ряд Тейлора, концепции суммирования бесконечных рядов/интегрирования;
- Фундаментальные и средние значения, теоремы интегрального исчисления, оценка определенных и неправильных интегралов;
- Бета-и гамма-функции;
- Функции множественных переменных, предел, непрерывность, частные производные;
- Основы обыкновенных и дифференциальных уравнений в частных производных.
Где применяется?
Если вы когда-нибудь задумывались, как работает логистическая регрессия, то вам понадобятся знания о градиентном спуске (с англ. gradient descent) и понятия из исчисления: производные, пределы и цепное правило.
Линейная алгебра
Это важный раздел математики для понимания того, как алгоритмы машинного обучения работают с потоком данных для создания представления. Все алгоритмы, лежащие в основе рекомендательных систем и распознавания изображений, включают в себя матрицы и матричную алгебру. Главные темы для изучения в данном разделе:
- Основные свойства матриц и векторов: скалярное умножение, линейное преобразование, транспонирование, сопряженность, ранг, детерминант;
- Внутренние и внешние произведения, правило умножения матриц и различные алгоритмы, обратные матрицы;
- Специальные матрицы: квадратная, единичная и треугольная матрицы, представление о разреженной и плотной матрице, единичные векторы, симметричная матрица, Эрмитова матрица, Антиэрмитова и унитарная матрицы;
- Концепция матричного факторизации, LU-разложение, Метод Гаусса, решение линейной системы уравнений Ax=b;
- Векторное пространство, базис, промежуток, ортогональность, ортонормированность, линейный наименьший квадрат;
- Собственный вектор, диагонализация, сингулярное разложение.
Где применяется?
Все нейросетевые алгоритмы применяют методы линейной алгебры для представления и обработки сетевых структур и операций обучения, а также для уменьшения размерности набора данных с наименьшим количеством параметров.
Функции, переменные, уравнения и графики
Эта область математики включает все основы для Data Scientist, от уравнения прямой до биномиальной теоремы, а также:
- Логарифм, экспоненциальные, полиномиальные функции, рациональные числа;
- Основы геометрии и теоремы, тригонометрические тождества;
- Вещественные и комплексные числа (с англ. real and complex numbers), основные свойства;
- Ряды, суммы, неравенства;
- Построение графиков, декартовых и полярных координат, конических сечений.
Где применяются?
Если вы хотите понять, как выполнить поиск из миллиона элементов после сортировки в базе данных быстрее, вы столкнетесь с понятием двоичный поиск (с англ. binary search). Чтобы понять его динамику, вам необходимо знать как устроены логарифмы и рекуррентные уравнения. Или, например, если вы хотите проанализировать временной ряд, вы можете столкнуться с такими понятиями, как периодические функции и экспоненциальный распад.

Статистика
Для Data Scientists важно понимание основных понятий статистики и теории вероятностей. Многие специалисты в этой области считают классическое (не нейронное сетевое) машинное обучение ничем иным, как статистическим обучением. Данная тема очень обширна, поэтому обратите внимание на наиболее важные концепции:
- Обобщение данных и описательная статистика, центральная тенденция, дисперсия, ковариация, корреляция;
- Базовая вероятность: основная идея, математическое ожидание, вероятностное исчисление, теорема Байеса, условная вероятность;
- Функции распределения вероятностей: равномерные, нормальные, биномиальные, хи-квадрат, t-распределение Стьюдента, центральная предельная теорема;
- Выборка, измерение, погрешность, генерация случайных чисел;
- Проверка гипотез, A/B testing, доверительные интервалы, p-values;
- ANOVA, t-тест;
- Линейная регрессия, регуляризация.
Где применяется?
В интервью и на практике. Если сможете показать, что освоили эти понятия, вы быстро произведете хорошее впечатление, так как вам предстоит использовать их почти каждый день на этапе обработки и анализа данных.
Дискретная математика
Эта область математики не так часто обсуждается, но вся современная наука о данных использует вычислительные системы, и дискретная математика лежит в их основе. Повышение квалификации по дискретной математике будет включать в себя концепции, критически важные для применения алгоритмов и структур данных в аналитическом проекте:
- Наборы, подмножества, наборы мощности;
- Счетные функции, комбинаторика, счетность;
- Основные методы доказательства: индукция, доказательство противоречием;
- Основы индуктивной, дедуктивной и пропозициональной логики;
- Основные структуры данных: стеки, очереди, графики, массивы, хэш-таблицы, деревья;
- Свойства графа: связные компоненты, степень, концепции максимального потока/минимального разреза, раскраска графа;
- Рекуррентные соотношения и уравнения;
- Функция роста.
Где применяется?
В анализе социальных сетей необходимо знать свойства графа, быстрый алгоритм поиска и обхода сети.
Исследование операций
Эти темы наиболее актуальны в специализированных областях, таких как теоретическая информатика, теория управления или исследование операций. Базовое понимание этих мощных методов также может быть полезным и в практике машинного обучения. Почти каждый алгоритм стремится минимизировать ошибку оценки с учетом различных ограничений, что является проблемой оптимизации. Темы для изучения:
- Основы оптимизации и как сформулировать задачу;
- Максимумы, минимумы, выпуклая функция, глобальное решение;
- Линейное программирование, Симплекс-метод;
- Целочисленное программирование;
- Программирование в ограничениях, задача о рюкзаке (с англ. knapsack problem);
- Рандомизированные методы оптимизации.
Где применяется?
Простые задачи линейной регрессии с использованием функции наименьших квадратов потерь имеют точное аналитическое решение, но не задачи логистической регрессии. Для их решения необходимо понимать, как работает выпуклость в оптимизации.

Курсы
Освоить теорию по учебникам не так просто, часто для наработки математического базиса начинающие специалисты по анализу данных прибегают к помощи опытных преподавателей. В наше время это можно сделать не выходя из дома.
Статистика
- Основы статистики
- Intro to Descriptive Statistics (англ.)
- Basic Statistics (англ.)
- Bayesian Statistics: From Concept to Data Analysis (англ.)
- Probability Theory, Statistics and Exploratory Data Analysis (англ.)
Анализ
- Введение в математический анализ
- Data Science Math Skills (англ.)
- Mathematics for Data Science (англ.)
- Data Science Math Skills (англ.)
- Mathematics for Machine Learning: Linear Algebra (англ.)
Математика с Python и R
Видеолекции
Лекции онлайн-курса по математике в Data Science от Proglib
Последовательности и прогрессии для начинающих
Линейная алгебра для начинающих с примерами
Какая математика нужна для Data Science? Интервью с преподавателями МГУ
Комбинаторика для начинающих с примерами
Какая математика нужна в анализе данных? Для обучения нейронной сети?
Mathematics for Machine Learning | Mathematics for Data Science by Intellipaat
Statistics And Probability Tutorial | Statistics And Probability for Data Science by Edureka
Книги
Essential Math for Data Science: Take Control of Your Data with Fundamental Calculus, Linear Algebra, Probability, and Statistics by Hadrien Jean

Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python (второе издание на английском) by Peter C. Bruce, Andrew Bruce, Peter Gedeck

Практическая статистика для специалистов Data Science (первое издание на русском языке) от Брюса Эндрю и Брюса Питер

Mathematics for Machine Learning by A. Aldo Faisal, Cheng Soon Ong, and Marc Peter Deisenroth

Doing Bayesian Data Analysis: A Tutorial with R, JAGS, and Stan 2nd Edition by John Kruschke

Пытающиеся освоить профессию аналитика данных с нуля часто сталкиваются с нехваткой математической подготовки. С 22 марта «Библиотека программиста» запускает базовый онлайн-курс по математике для Data Science. Квалифицированные преподаватели помогут слушателям получить знания, без которых бессмысленно приступать к изучению более продвинутых вещей.
Комментарии