Профессия Data Scientist – самая сексуальная по версии Гарвардского бизнес-обзора. Мы же расскажем, какие подводные камни ждут вас на собеседовании.
Одно из 25 лучших рабочих мест в Америке, рост спроса, который к 2020 году достигнет 28%, и солидная заработная плата. Неудивительно, что все кинулись в эту отрасль, но и собеседование отнюдь не простое. Рассмотрим распространенные вопросы для потенциального ученого по данным.
1. Что такое векторы признаков?
Ответ:
Функциональный вектор представляет собой n-мерный вектор числовых признаков, которые образуют некоторый объект. В машинном обучении векторы признаков используются для представления числовых или символических характеристик, называемых объектами, в математическом, легко анализируемом виде.
2. Объясните шаги при создании дерева решений.
Ответ:
- Возьмите весь набор данных в качестве входных параметров.
- Найдите способ максимизировать разделение классов. Это может быть любой тест, который делит данные в двух наборах.
- Примените разделение к входным данным.
- Повторите шаги с 1 по 2 для разделенных данных.
- Остановитесь, когда встретите соответствующие критерии.
- Обрезка: очистите дерево, если вы зашли слишком далеко в разделении.
3. Что такое анализ основных причин, который включает в себя профессия Data Scientist?
Ответ:
Анализ основных причин был первоначально разработан для изучения промышленных аварий, но в настоящее время широко используется и в других областях. Это метод решения проблем. Фактор признается первопричиной, если его исключение предотвращает повторное появление нежелательного события.
4. Что такое логистическая регрессия?
Ответ:
Логистическая регрессия также упоминается как logit model. Это метод прогнозирования двоичного результата из линейной комбинации предикторных переменных.
5. Что такое система рекомендаций?
Ответ:
Системы рекомендаций являются подклассом систем фильтрации информации, что предназначены для прогнозирования предпочтений или оценок, которые пользователь предоставит продукту.
6. Объясните перекрестные проверки.
Ответ:
Профессия Data Scientist неразрывно связана с анализом и тестированием. Перекрестные проверки – это как раз метод проверки аналитической модели на независимых данных. Чаще используется в фоновых условиях, когда нужно оценить, насколько точно модель будет реализована на практике. Цель кросс-проверки заключается в определении набора данных для тестирования модели на этапе обучения, чтобы избежать таких проблем, как переназначение. Результат – оценка эффективности модели с максимально равномерным использованием данных.
7. Что такое коллаборативная фильтрация?
Ответ:
Процесс фильтрации, используемый большинством систем рекомендаций. Он позволяет находить шаблоны и информацию с помощью совместных перспектив, многочисленных источников данных и нескольких агентов.
8. Всегда ли методы градиентного спуска сходятся к подобной точке?
Ответ:
Нет. В некоторых случаях они достигают локальных минимумов или локальной оптимальной точки. Вы не достигнете глобальной оптимальной точки. Это предопределено данными и начальными условиями.
9. Профессия Data Scientist и тестирования A/B: какова цель таких тестов?
Ответ:
Это статистическое тестирование гипотез для рандомизированного эксперимента с двумя переменными A и B. Цель A/B тестов заключается в обнаружении любых изменений на веб-странице для улучшения результатов.
10. Перечислите недостатки линейной модели.
Ответ:
Некоторыми недостатками линейной модели являются:
- Предположение о линейности ошибок.
- Не может использоваться для результатов подсчета или двоичных результатов.
- Есть проблемы с переобучением, которые не может решить линейная модель.
11. Что такое Закон больших чисел?
Ответ:
Это теорема, которая описывает результат выполнения одного и того же эксперимента много раз. Данная теорема составляет основу частотного мышления. В ней говорится, что среднее значение, дисперсия и стандартное отклонение выборки сходятся к тому, что они пытаются оценить.
12. Что такое мешающий фактор?
Ответ:
Это посторонние факторы статистической модели, которые прямо или обратно пропорционально коррелируют как с зависимой, так и с независимой переменной. Оценка не учитывает мешающий фактор, зато сама профессия Data Scientist предусматривает его изучение.
13. Объясните звездную схему.
Ответ:
Это традиционная схема базы данных с центральной таблицей. Ее функция – поддерживать многомерное представление данных, которые хранятся в ней. Центральная таблица, таблица фактов, содержит фактические или суммируемые данные и состоит из множества строк. Денормализованные таблицы измерений не такие большие и предназначены для описательной информации. Все они известны как таблицы поиска и в основном полезны в приложениях реального времени, поскольку сохраняют много памяти. Иногда звездообразные схемы включают несколько уровней суммирования для быстрого восстановления информации.
14. Расскажите о регулярном обновлении алгоритмов.
Ответ:
Data Scientist занимается обновлением алгоритмов, когда:
- Хочет, чтобы модель развивалась через инфраструктуру, подобно потокам данных.
- Меняется исходный источник данных.
- Нестационарный случай.
15. Что такое собственное значение и собственный вектор?
Ответ:
Собственные векторы предназначены для понимания линейных преобразований. При анализе данных ученый обычно вычисляет Eigenvector для корреляционной или ковариационной матрицы. Собственные значения – это направления, по которым конкретное линейное преобразование действует путем сбрасывания, сжатия или растяжения.
16. Для чего нужна повторная выборка?
Ответ:
Повторная выборка выполняется в любом из этих случаев:
- Оценка точности статистических данных выборок путем использования подмножеств доступных данных или рисования случайным образом с заменой из набора точек данных.
- Подстановка меток в точках данных при выполнении тестов значимости.
- Проверка моделей с использованием случайных подмножеств (самонастройка, перекрестная проверка).
17. Объясните выборочное смещение.
Ответ:
Выборочное смещение (selection bias) в Data Science является проблематичной ситуацией, при которой ошибка возникает из-за неслучайной выборки.
18. Каковы типы смещений, возникающих в процессе выборки?
Ответ:
- Selection bias
- Under coverage bias
- Survivorship bias
19. Объясните суть survivorship bias.
Ответ:
Это логическая ошибка фокусирующих аспектов, которые поддерживают «выживаемость» какого-либо процесса и игнорируют процессы менее значимые. Может привести к неправильным выводам.
20. Как вы работаете с Random forest?
Ответ:
Основополагающий принцип данной методики заключается в том, что несколько слабых учеников объединяются, чтобы создать одного сильного. Этапы:
- Создается несколько деревьев решений на загрузочных образцах данных.
- Каждый раз, когда происходит расщепление, случайная выборка mm-предикторов образовывается из всех pp-предикторов.
- Правило большого пальца: на каждом расколе m = p√m = p.
- Прогнозы: по правилу большинства.
Быть ученым-исследователем нелегко, но выгодно, ведь на сегодняшний день существует немало вакансий. Подготовьтесь к суровым вопросам, и должность обязательно станет вашей!
Также рекомендуем Вам посмотреть:
Путь Data Scientist’а в 2017
27 шпаргалок по машинному обучению и Python в 2017
Большая подборка материалов по машинному обучению: книги, видеокурсы, онлайн-курсы
Машинное обучение за год
Комментарии