👨🎓️ 5 простых шагов: как подготовиться к поступлению в «Школу анализа данных» в 2024 году?
Поступить и учиться в ШАД от Яндекс – мечта многих начинающих специалистов по Data Science. Рассказываем, как это можно сделать, пройдя пять простых шагов.
1. Классический трек состоит из 11 этапов, если вы студент старших курсов или выпускник технических вузов и СПО:
- Заполнение анкеты (с 1 апреля по 12 мая 2024 года)
- Онлайн-тестирование (с 6 по 13 мая 2024 года)
- Результаты первого этапа будут объявлены 16 мая 2024 года.
- Очная олимпиада пройдет 18 мая 2024 года.
- Апелляция по олимпиаде запланирована на 20 мая 2024 года.
- Результаты олимпиады будут объявлены 22 мая 2024 года.
- Онлайн-экзамен состоится 25 мая 2024 года.
- Апелляция по экзамену назначена на 11 июня 2024 года.
- Результаты второго этапа будут известны 18 июня 2024 года.
- Собеседования пройдут с 24 июня по 19 июля 2024 года.
- Результаты финального этапа отбора будут объявлены 31 июля 2024 года.
2. Классический трек для разработчиков и аналитиков с высшим образованием и опытом работы более 3 лет после выпуска, а также выпускников аспирантуры состоит из 3-13 этапов в зависимости от вуза. Этапы поступления в ШАД (МФТИ):
- Заполнение анкеты (с 1 апреля по 12 мая 2024 года)
- Онлайн-тестирование (с 6 по 13 мая 2024 года)
- Результаты первого этапа будут объявлены 16 мая 2024 года.
- Очная олимпиада пройдет 18 мая 2024 года.
- Апелляция по олимпиаде запланирована на 20 мая 2024 года.
- Результаты олимпиады будут объявлены 22 мая 2024 года.
- Онлайн-экзамен состоится 25 мая 2024 года.
- Апелляция по экзамену назначена на 11 июня 2024 года.
- Результаты второго этапа будут известны 18 июня 2024 года.
- Собеседования пройдут с 24 июня по 19 июля 2024 года.
- Результаты собеседований будут объявлены 31 июля 2024 года.
- Интенсив «Математика для Data Science» (с 1 по 30 августа 2024 года):
- Результаты финального этапа отбора будут объявлены 1 сентября 2024 года.
3. В этом году студенты могут поступить в Школу анализа данных (ШАД) через олимпиаду. Олимпиада проводится в нескольких городах, включая Москву, Санкт-Петербург, Екатеринбург, Нижний Новгород, Новосибирск и Минск. Участники должны успешно пройти первый этап отбора, чтобы принять участие в олимпиаде. Сама олимпиада состоит из двух блоков: математического и программирования, продолжительностью 3 и 2 часа соответственно. Те, кто успешно справляются с заданиями олимпиады, проходят на этап собеседований. А кандидаты, не прошедшие олимпиаду, могут воспользоваться стандартным отбором и сдать онлайн-экзамен.
Шаг 1: Выясните, каких знаний вам не хватает
При поступлении в ШАД проверяются знания по общей программе (.pdf), включающей базовые разделы высшей алгебры, математического анализа, комбинаторики, теории вероятностей, а также основы программирования и анализа данных. Оцените свои знания и начните интенсивную подготовку с практикой по темам, в которых вы еще не сильны. Для упрощения этой задачи в статье мы собрали все необходимые темы и ресурсы для их изучения.
Шаг 2: Математическая подготовка
Перед тем, как приступить к изучению специфических областей математики, ознакомьтесь с нашим материалом «Обучение Data Science: какие знания по математике нужны специалисту по анализу данных?», в котором собраны общие понятия и ресурсы, с помощью которых их можно освоить.
Алгeбра
Чек-лист из программы для поступления в «Школу анализа данных»:
- Определение, четность, произведение подстановок. Разложение подстановок в произведение транспозиций и независимых циклов.
- Комплексные числа. Геометрическое изображение, алгебраическая и тригонометрическая форма записи, извлечение корней, корни из единицы.
- Системы линейных уравнений. Прямоугольные матрицы. Приведение матриц и систем линейных уравнений к ступенчатому виду. Метод Гаусса.
- Линейная зависимость и ранг. Линейная зависимость строк (столбцов). Основная лемма о линейной зависимости, базис и ранг системы строк (столбцов). Ранг матрицы. Критерий совместности и определенности системы линейных уравнений в терминах рангов матриц. Фундаментальная система решений однородной системы линейных уравнений.
- Определитель квадратной матрицы, его основные свойства. Критерий равенства определителя нулю. Формула разложения определителя матрицы по строке (столбцу).
- Операции над матрицами и их свойства. Теорема о ранге произведения двух матриц. Определитель произведения квадратных матриц. Обратная матрица, ее явный вид (формула), способ выражения с помощью элементарных преобразований строк.
- Векторное пространство, его базис и размерность. Преобразования координат в векторном пространстве. Подпространства как множества решений систем однородных линейных уравнений. Связь между размерностями суммы и пересечения двух подпространств. Линейная независимость подпространств. Базис и размерность прямой суммы подпространств.
- Линейные отображения, их запись в координатах. Образ и ядро линейного отображения, связь между их размерностями. Сопряженное пространство и сопряженные базисы. Изменение матрицы линейного оператора при переходе к другому базису.
- Билинейные функции, их запись в координатах. Изменение матрицы билинейной функции при переходе к другому базису. Ортогональное дополнение к подпространству относительно симметрической билинейной функции. Связь между симметричными билинейными и квадратичными функциями. Существование ортогонального базиса для симметрической билинейной функции. Нормальный вид вещественной квадратичной функции. Закон инерции.
- Евклидовы пространства. Неравенство Коши-Буняковского. Ортогональные базисы. Ортогонализация Грама-Шмидта. Ортогональные операторы.
- Собственные векторы и собственные значения линейного оператора. Собственные подпространства линейного оператора, их линейная независимость. Условие диагонализируемости оператора.
Дополнительный материал:
- ∀ Как линейная алгебра используется в машинном обучении?
- ⚗️ 5 областей применения линейной алгебры в программировании
Математически анализ
Чек-лист из программы для поступления в «Школу анализа данных»:
- Пределы и непрерывность. Пределы последовательностей и функций. Непрерывные функции.
- Ряды. Числовые и функциональные ряды. Признаки сходимости (Даламбера, Коши, интегральный, Лейбница). Абсолютно и условно сходящиеся ряды.
- Дифференцирование. Дифференцирование функций. Применение производной для нахождения экстремумов функций. Формула Тейлора.
- Функции многих переменных. Частные производные. Градиент и его геометрический смысл. Гессиан. Метод градиентного спуска. Поиск экстремумов функций от многих переменных.
- Интегрирование. Определенный и неопределенный интегралы. Методы интегрирования функций. Первообразные различных элементарных функций. Кратные интегралы (двойные, тройные), замена координат, связь с повторными.
- Элементы функционального анализа: нормированные, метрические пространства, непрерывность, ограниченность.
Дополнительный материал:
- 📈 Для чего нужен математический анализ в машинном обучении
- 🧮 Что такое математический анализ и как он используется в программировании
Комбинаторика
Чек-лист из программы для поступления в «Школу анализа данных»:
- Основные правила комбинаторики. Правило подсчета количества комбинаторных объектов. Принцип Дирихле. Примеры.
- Множества. Круги Эйлера, операции на множествах. Формула включений и исключений. Примеры.
- Сочетания. Размещения, перестановки и сочетания. Бином Ньютона. Треугольник Паскаля. Сочетания с повторениями.
Дополнительный материал:
- 👨🎓️ Первое занятие нашего курса по математике для Data Science доступно на YouTube
- 🎡 Что такое комбинаторика и как она используется в программировании
Теория вероятностей
Чек-лист из программы для поступления в «Школу анализа данных»:
- Основные понятия теории вероятностей. Определение вероятностного пространства, простейшие дискретные случаи (выборки с порядком и без него, упорядоченные и неупорядоченные), классическая вероятностная модель. Случайная величина, функция распределения.
- Условные вероятности. Определение условной вероятности, формула полной вероятности, формула Байеса.
- Математическое ожидание, дисперсия, корреляция. Определение математического ожидания, дисперсии, ковариации и корреляции, их свойства.
- Независимость событий. Попарная независимость и независимость в совокупности.
- Основные теоремы теории вероятностей. Неравенство Чебышева. Закон больших чисел. Центральная предельная теорема.
- Распределения. Стандартные дискретные и непрерывные распределения, их математические ожидания, дисперсии и свойства: биномиальное; равномерное; нормальное; пуассоновское; показательное; геометрическое.
Дополнительный материал:
- 🎲 Теория вероятностей: где она используется и нужна ли она рядовому разработчику
- 🎲 Зачем в науке о данных нужны теория вероятностей и статистика
Шаг 3: Программирование
Для поступления в «Школу анализа данных» нужно владеть хотя бы одним из основных языков программирования, предпочтение отдается C/C++.
Чек-лист из программы для поступления в «Школу анализа данных»:
- Простейшие конструкции языка программирования. Циклы, ветвления, рекурсия.
- Анализ алгоритмов. Понятие о сложности по времени и по памяти. Асимптотика, O-символика. Инварианты, пред- и постусловия. Доказательство корректности алгоритмов.
- Простейшие структуры данных. Массивы, стеки, очереди, связные списки, Сравнение временных затрат при различных типах операций.
- Строки и операции над ними. Представление строк. Вычисление длины, конкатенация.
- Сортировки. Нижняя теоретико-информационная оценка сложности задачи сортировки. Алгоритмы сортировки вставками, пузырьком, быстрая сортировка, сортировка слиянием. Оценка сложности.
- Указатели. Указатели и динамическое управление памятью.
Шаг 4: Анализ данных
Крайне важно понимать, как подготовить базу данных для получения желаемых результатов без потери информации. Далее специалист по Data Science с помощью различных инструментов, методов, методологий и алгоритмов анализирует и оптимизирует информацию для создания эффективных бизнес стратегий.
Чек-лист из программы для поступления в «Школу анализа данных»:
- Основные машинного обучения: классификация, регрессия, ранжирование, кластеризация. Обучение с учителем и без учителя.
- Предобработка и очистка данных. Работа с пропущенными значениями.
- Feature Engineering. Работа с категориальными признаками.
- Переобучение: как его обнаружить и как с ним бороться. Разделение на обучающую и тестовую выборки. Методы регуляризации.
- Сравнение моделей. Метрики в задачах классификации и регрессии. Методология подборара гиперпараметров.
- Основные модели классификации и регрессии: линейные модели, решающие деревья. Ансамбли алгоритмов.
Шаг 5: Практика
После изучения необходимых тем, переходите к практическим занятиям. Это лучший способ закрепить полученные знания и подготовится к интервью, во время которого вам предстоит решать задачи в режиме реального времени.
Примеры упражнений:
- Разбор варианта классического экзамена (2023) (.pdf)
- Разбор варианта классического экзамена (2022) (.pdf)
- Разбор варианта экзамена альтернативного трека (2022) (.pdf)
Если вы хотите наработать необходимую для поступления в «Школу анализа данных» математическую базу и подготовиться к обучению на Data Scientist, обратите внимание на онлайн-курс «Библиотеки программиста». С помощью опытных преподавателей из ведущих вузов страны сделать это будет намного проще, чем самостоятельно по книгам.