Профессия Data Scientist и 20 вопросов на собеседовании

Профессия Data Scientist – самая сексуальная по версии Гарвардского бизнес-обзора. Мы же расскажем, какие подводные камни ждут вас на собеседовании.

Профессия Data Scientist

Одно из 25 лучших рабочих мест в Америке, рост спроса, который к 2020 году достигнет 28%, и солидная заработная плата. Неудивительно, что все кинулись в эту отрасль, но и собеседование отнюдь не простое. Рассмотрим распространенные вопросы для потенциального ученого по данным.

1. Что такое векторы признаков?

Ответ:

Функциональный вектор представляет собой n-мерный вектор числовых признаков, которые образуют некоторый объект. В машинном обучении векторы признаков используются для представления числовых или символических характеристик, называемых объектами, в математическом, легко анализируемом виде.

2. Объясните шаги при создании дерева решений.

Ответ:

  1. Возьмите весь набор данных в качестве входных параметров.
  2. Найдите способ максимизировать разделение классов. Это может быть любой тест, который делит данные в двух наборах.
  3. Примените разделение к входным данным.
  4. Повторите шаги с 1 по 2 для разделенных данных.
  5. Остановитесь, когда встретите соответствующие критерии.
  6. Обрезка: очистите дерево, если вы зашли слишком далеко в разделении.

3. Что такое анализ основных причин, который включает в себя профессия Data Scientist?

Ответ:

Анализ основных причин был первоначально разработан для изучения промышленных аварий, но в настоящее время широко используется и в других областях. Это метод решения проблем. Фактор признается первопричиной, если его исключение предотвращает повторное появление нежелательного события.

4. Что такое логистическая регрессия?

Ответ:

Логистическая регрессия также упоминается как logit model. Это метод прогнозирования двоичного результата из линейной комбинации предикторных переменных.

5. Что такое система рекомендаций?

Ответ:

Системы рекомендаций являются подклассом систем фильтрации информации, что предназначены для прогнозирования предпочтений или оценок, которые пользователь предоставит продукту.

6. Объясните перекрестные проверки.

Ответ:

Профессия Data Scientist неразрывно связана с анализом и тестированием. Перекрестные проверки – это как раз метод проверки аналитической модели на независимых данных. Чаще используется в фоновых условиях, когда нужно оценить, насколько точно модель будет реализована на практике. Цель кросс-проверки заключается в определении набора данных для тестирования модели на этапе обучения, чтобы избежать таких проблем, как переназначение. Результат – оценка эффективности модели с максимально равномерным использованием данных.

7. Что такое коллаборативная фильтрация?

Ответ:

Процесс фильтрации, используемый большинством систем рекомендаций. Он позволяет находить шаблоны и информацию с помощью совместных перспектив, многочисленных источников данных и нескольких агентов.

8. Всегда ли методы градиентного спуска сходятся к подобной точке?

Ответ:

Нет. В некоторых случаях они достигают локальных минимумов или локальной оптимальной точки. Вы не достигнете глобальной оптимальной точки. Это предопределено данными и начальными условиями.

9. Профессия Data Scientist и тестирования A/B: какова цель таких тестов?

Ответ:

Это статистическое тестирование гипотез для рандомизированного эксперимента с двумя переменными A и B. Цель A/B тестов заключается в обнаружении любых изменений на веб-странице для улучшения результатов.

10. Перечислите недостатки линейной модели.

Ответ:

Некоторыми недостатками линейной модели являются:

  • Предположение о линейности ошибок.
  • Не может использоваться для результатов подсчета или двоичных результатов.
  • Есть проблемы с переобучением, которые не может решить линейная модель.

11. Что такое Закон больших чисел?

Ответ:

Это теорема, которая описывает результат выполнения одного и того же эксперимента много раз. Данная теорема составляет основу частотного мышления. В ней говорится, что среднее значение, дисперсия и стандартное отклонение выборки сходятся к тому, что они пытаются оценить.

12. Что такое мешающий фактор?

Ответ:

Это посторонние факторы статистической модели, которые прямо или обратно пропорционально коррелируют как с зависимой, так и с независимой переменной. Оценка не учитывает мешающий фактор, зато сама профессия Data Scientist предусматривает его изучение.

13. Объясните звездную схему.

Ответ:

Это традиционная схема базы данных с центральной таблицей. Ее функция – поддерживать многомерное представление данных, которые хранятся в ней. Центральная таблица, таблица фактов, содержит фактические или суммируемые данные и состоит из множества строк. Денормализованные таблицы измерений не такие большие и предназначены для описательной информации. Все они известны как таблицы поиска и в основном полезны в приложениях реального времени, поскольку сохраняют много памяти. Иногда звездообразные схемы включают несколько уровней суммирования для быстрого восстановления информации.

14. Расскажите о регулярном обновлении алгоритмов.

Ответ:

Data Scientist занимается обновлением алгоритмов, когда:

  • Хочет, чтобы модель развивалась через инфраструктуру, подобно потокам данных.
  • Меняется исходный источник данных.
  • Нестационарный случай.

15. Что такое собственное значение и собственный вектор?

Ответ:

Собственные векторы предназначены для понимания линейных преобразований. При анализе данных ученый обычно вычисляет Eigenvector для корреляционной или ковариационной матрицы. Собственные значения – это направления, по которым конкретное линейное преобразование действует путем сбрасывания, сжатия или растяжения.

16. Для чего нужна повторная выборка?

Ответ:

Повторная выборка выполняется в любом из этих случаев:

  • Оценка точности статистических данных выборок путем использования подмножеств доступных данных или рисования случайным образом с заменой из набора точек данных.
  • Подстановка меток в точках данных при выполнении тестов значимости.
  • Проверка моделей с использованием случайных подмножеств (самонастройка, перекрестная проверка).

17. Объясните выборочное смещение.

Ответ:

Выборочное смещение (selection bias) в Data Science является проблематичной ситуацией, при которой ошибка возникает из-за неслучайной выборки.

18. Каковы типы смещений, возникающих в процессе выборки?

Ответ:

  • Selection bias
  • Under coverage bias
  • Survivorship bias

19. Объясните суть survivorship bias.

Ответ:

Это логическая ошибка фокусирующих аспектов, которые поддерживают «выживаемость» какого-либо процесса и игнорируют процессы менее значимые. Может привести к неправильным выводам.

20. Как вы работаете с Random forest?

Ответ:

Основополагающий принцип данной методики заключается в том, что несколько слабых учеников объединяются, чтобы создать одного сильного. Этапы:

  • Создается несколько деревьев решений на загрузочных образцах данных.
  • Каждый раз, когда происходит расщепление, случайная выборка mm-предикторов образовывается из всех pp-предикторов.
  • Правило большого пальца: на каждом расколе m = p√m = p.
  • Прогнозы: по правилу большинства.

Быть ученым-исследователем нелегко, но выгодно, ведь на сегодняшний день существует немало вакансий. Подготовьтесь к суровым вопросам, и должность обязательно станет вашей!

Также рекомендуем Вам посмотреть:

Путь Data Scientist’а в 2017
27 шпаргалок по машинному обучению и Python в 2017
Большая подборка материалов по машинному обучению: книги, видеокурсы, онлайн-курсы
Машинное обучение за год

Комментарии

ВАКАНСИИ

Добавить вакансию
Разработчик C++
Москва, по итогам собеседования

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ