1. Классический трек состоит из 11 этапов, если вы студент старших курсов или выпускник технических вузов и СПО:
- Заполнение анкеты (с 1 апреля по 12 мая 2024 года)
- Онлайн-тестирование (с 6 по 13 мая 2024 года)
- Результаты первого этапа будут объявлены 16 мая 2024 года.
- Очная олимпиада пройдет 18 мая 2024 года.
- Апелляция по олимпиаде запланирована на 20 мая 2024 года.
- Результаты олимпиады будут объявлены 22 мая 2024 года.
- Онлайн-экзамен состоится 25 мая 2024 года.
- Апелляция по экзамену назначена на 11 июня 2024 года.
- Результаты второго этапа будут известны 18 июня 2024 года.
- Собеседования пройдут с 24 июня по 19 июля 2024 года.
- Результаты финального этапа отбора будут объявлены 31 июля 2024 года.
2. Классический трек для разработчиков и аналитиков с высшим образованием и опытом работы более 3 лет после выпуска, а также выпускников аспирантуры состоит из 3-13 этапов в зависимости от вуза. Этапы поступления в ШАД (МФТИ):
- Заполнение анкеты (с 1 апреля по 12 мая 2024 года)
- Онлайн-тестирование (с 6 по 13 мая 2024 года)
- Результаты первого этапа будут объявлены 16 мая 2024 года.
- Очная олимпиада пройдет 18 мая 2024 года.
- Апелляция по олимпиаде запланирована на 20 мая 2024 года.
- Результаты олимпиады будут объявлены 22 мая 2024 года.
- Онлайн-экзамен состоится 25 мая 2024 года.
- Апелляция по экзамену назначена на 11 июня 2024 года.
- Результаты второго этапа будут известны 18 июня 2024 года.
- Собеседования пройдут с 24 июня по 19 июля 2024 года.
- Результаты собеседований будут объявлены 31 июля 2024 года.
- Интенсив «Математика для Data Science» (с 1 по 30 августа 2024 года):
- Результаты финального этапа отбора будут объявлены 1 сентября 2024 года.
3. В этом году студенты могут поступить в Школу анализа данных (ШАД) через олимпиаду. Олимпиада проводится в нескольких городах, включая Москву, Санкт-Петербург, Екатеринбург, Нижний Новгород, Новосибирск и Минск. Участники должны успешно пройти первый этап отбора, чтобы принять участие в олимпиаде. Сама олимпиада состоит из двух блоков: математического и программирования, продолжительностью 3 и 2 часа соответственно. Те, кто успешно справляются с заданиями олимпиады, проходят на этап собеседований. А кандидаты, не прошедшие олимпиаду, могут воспользоваться стандартным отбором и сдать онлайн-экзамен.
Шаг 1: Выясните, каких знаний вам не хватает
При поступлении в ШАД проверяются знания по общей программе (.pdf), включающей базовые разделы высшей алгебры, математического анализа, комбинаторики, теории вероятностей, а также основы программирования и анализа данных. Оцените свои знания и начните интенсивную подготовку с практикой по темам, в которых вы еще не сильны. Для упрощения этой задачи в статье мы собрали все необходимые темы и ресурсы для их изучения.
Шаг 2: Математическая подготовка
Перед тем, как приступить к изучению специфических областей математики, ознакомьтесь с нашим материалом «Обучение Data Science: какие знания по математике нужны специалисту по анализу данных?», в котором собраны общие понятия и ресурсы, с помощью которых их можно освоить.
Алгeбра
Чек-лист из программы для поступления в «Школу анализа данных»:
- Определение, четность, произведение подстановок. Разложение подстановок в произведение транспозиций и независимых циклов.
- Комплексные числа. Геометрическое изображение, алгебраическая и тригонометрическая форма записи, извлечение корней, корни из единицы.
- Системы линейных уравнений. Прямоугольные матрицы. Приведение матриц и систем линейных уравнений к ступенчатому виду. Метод Гаусса.
- Линейная зависимость и ранг. Линейная зависимость строк (столбцов). Основная лемма о линейной зависимости, базис и ранг системы строк (столбцов). Ранг матрицы. Критерий совместности и определенности системы линейных уравнений в терминах рангов матриц. Фундаментальная система решений однородной системы линейных уравнений.
- Определитель квадратной матрицы, его основные свойства. Критерий равенства определителя нулю. Формула разложения определителя матрицы по строке (столбцу).
- Операции над матрицами и их свойства. Теорема о ранге произведения двух матриц. Определитель произведения квадратных матриц. Обратная матрица, ее явный вид (формула), способ выражения с помощью элементарных преобразований строк.
- Векторное пространство, его базис и размерность. Преобразования координат в векторном пространстве. Подпространства как множества решений систем однородных линейных уравнений. Связь между размерностями суммы и пересечения двух подпространств. Линейная независимость подпространств. Базис и размерность прямой суммы подпространств.
- Линейные отображения, их запись в координатах. Образ и ядро линейного отображения, связь между их размерностями. Сопряженное пространство и сопряженные базисы. Изменение матрицы линейного оператора при переходе к другому базису.
- Билинейные функции, их запись в координатах. Изменение матрицы билинейной функции при переходе к другому базису. Ортогональное дополнение к подпространству относительно симметрической билинейной функции. Связь между симметричными билинейными и квадратичными функциями. Существование ортогонального базиса для симметрической билинейной функции. Нормальный вид вещественной квадратичной функции. Закон инерции.
- Евклидовы пространства. Неравенство Коши-Буняковского. Ортогональные базисы. Ортогонализация Грама-Шмидта. Ортогональные операторы.
- Собственные векторы и собственные значения линейного оператора. Собственные подпространства линейного оператора, их линейная независимость. Условие диагонализируемости оператора.
Дополнительный материал:
- ∀ Как линейная алгебра используется в машинном обучении?
- ⚗️ 5 областей применения линейной алгебры в программировании
Математически анализ
Чек-лист из программы для поступления в «Школу анализа данных»:
- Пределы и непрерывность. Пределы последовательностей и функций. Непрерывные функции.
- Ряды. Числовые и функциональные ряды. Признаки сходимости (Даламбера, Коши, интегральный, Лейбница). Абсолютно и условно сходящиеся ряды.
- Дифференцирование. Дифференцирование функций. Применение производной для нахождения экстремумов функций. Формула Тейлора.
- Функции многих переменных. Частные производные. Градиент и его геометрический смысл. Гессиан. Метод градиентного спуска. Поиск экстремумов функций от многих переменных.
- Интегрирование. Определенный и неопределенный интегралы. Методы интегрирования функций. Первообразные различных элементарных функций. Кратные интегралы (двойные, тройные), замена координат, связь с повторными.
- Элементы функционального анализа: нормированные, метрические пространства, непрерывность, ограниченность.
Дополнительный материал:
- 📈 Для чего нужен математический анализ в машинном обучении
- 🧮 Что такое математический анализ и как он используется в программировании
Комбинаторика
Чек-лист из программы для поступления в «Школу анализа данных»:
- Основные правила комбинаторики. Правило подсчета количества комбинаторных объектов. Принцип Дирихле. Примеры.
- Множества. Круги Эйлера, операции на множествах. Формула включений и исключений. Примеры.
- Сочетания. Размещения, перестановки и сочетания. Бином Ньютона. Треугольник Паскаля. Сочетания с повторениями.
Дополнительный материал:
- 👨🎓️ Первое занятие нашего курса по математике для Data Science доступно на YouTube
- 🎡 Что такое комбинаторика и как она используется в программировании
Теория вероятностей
Чек-лист из программы для поступления в «Школу анализа данных»:
- Основные понятия теории вероятностей. Определение вероятностного пространства, простейшие дискретные случаи (выборки с порядком и без него, упорядоченные и неупорядоченные), классическая вероятностная модель. Случайная величина, функция распределения.
- Условные вероятности. Определение условной вероятности, формула полной вероятности, формула Байеса.
- Математическое ожидание, дисперсия, корреляция. Определение математического ожидания, дисперсии, ковариации и корреляции, их свойства.
- Независимость событий. Попарная независимость и независимость в совокупности.
- Основные теоремы теории вероятностей. Неравенство Чебышева. Закон больших чисел. Центральная предельная теорема.
- Распределения. Стандартные дискретные и непрерывные распределения, их математические ожидания, дисперсии и свойства: биномиальное; равномерное; нормальное; пуассоновское; показательное; геометрическое.
Дополнительный материал:
- 🎲 Теория вероятностей: где она используется и нужна ли она рядовому разработчику
- 🎲 Зачем в науке о данных нужны теория вероятностей и статистика
Шаг 3: Программирование
Для поступления в «Школу анализа данных» нужно владеть хотя бы одним из основных языков программирования, предпочтение отдается C/C++.
Чек-лист из программы для поступления в «Школу анализа данных»:
- Простейшие конструкции языка программирования. Циклы, ветвления, рекурсия.
- Анализ алгоритмов. Понятие о сложности по времени и по памяти. Асимптотика, O-символика. Инварианты, пред- и постусловия. Доказательство корректности алгоритмов.
- Простейшие структуры данных. Массивы, стеки, очереди, связные списки, Сравнение временных затрат при различных типах операций.
- Строки и операции над ними. Представление строк. Вычисление длины, конкатенация.
- Сортировки. Нижняя теоретико-информационная оценка сложности задачи сортировки. Алгоритмы сортировки вставками, пузырьком, быстрая сортировка, сортировка слиянием. Оценка сложности.
- Указатели. Указатели и динамическое управление памятью.
Шаг 4: Анализ данных
Крайне важно понимать, как подготовить базу данных для получения желаемых результатов без потери информации. Далее специалист по Data Science с помощью различных инструментов, методов, методологий и алгоритмов анализирует и оптимизирует информацию для создания эффективных бизнес стратегий.
Чек-лист из программы для поступления в «Школу анализа данных»:
- Основные машинного обучения: классификация, регрессия, ранжирование, кластеризация. Обучение с учителем и без учителя.
- Предобработка и очистка данных. Работа с пропущенными значениями.
- Feature Engineering. Работа с категориальными признаками.
- Переобучение: как его обнаружить и как с ним бороться. Разделение на обучающую и тестовую выборки. Методы регуляризации.
- Сравнение моделей. Метрики в задачах классификации и регрессии. Методология подборара гиперпараметров.
- Основные модели классификации и регрессии: линейные модели, решающие деревья. Ансамбли алгоритмов.
Шаг 5: Практика
После изучения необходимых тем, переходите к практическим занятиям. Это лучший способ закрепить полученные знания и подготовится к интервью, во время которого вам предстоит решать задачи в режиме реального времени.
Примеры упражнений:
- Разбор варианта классического экзамена (2023) (.pdf)
- Разбор варианта классического экзамена (2022) (.pdf)
- Разбор варианта экзамена альтернативного трека (2022) (.pdf)
Если вы хотите наработать необходимую для поступления в «Школу анализа данных» математическую базу и подготовиться к обучению на Data Scientist, обратите внимание на онлайн-курс «Библиотеки программиста». С помощью опытных преподавателей из ведущих вузов страны сделать это будет намного проще, чем самостоятельно по книгам.
Комментарии