Профессия Data Scientist и 20 вопросов на собеседовании

Профессия Data Scientist – самая сексуальная по версии Гарвардского бизнес-обзора. Мы же расскажем, какие подводные камни ждут вас на собеседовании.

Профессия Data Scientist

Одно из 25 лучших рабочих мест в Америке, рост спроса, который к 2020 году достигнет 28%, и солидная заработная плата. Неудивительно, что все кинулись в эту отрасль, но и собеседование отнюдь не простое. Рассмотрим распространенные вопросы для потенциального ученого по данным.

1. Что такое векторы признаков?

Ответ:

Функциональный вектор представляет собой n-мерный вектор числовых признаков, которые образуют некоторый объект. В машинном обучении векторы признаков используются для представления числовых или символических характеристик, называемых объектами, в математическом, легко анализируемом виде.

2. Объясните шаги при создании дерева решений.

Ответ:

  1. Возьмите весь набор данных в качестве входных параметров.
  2. Найдите способ максимизировать разделение классов. Это может быть любой тест, который делит данные в двух наборах.
  3. Примените разделение к входным данным.
  4. Повторите шаги с 1 по 2 для разделенных данных.
  5. Остановитесь, когда встретите соответствующие критерии.
  6. Обрезка: очистите дерево, если вы зашли слишком далеко в разделении.

3. Что такое анализ основных причин, который включает в себя профессия Data Scientist?

Ответ:

Анализ основных причин был первоначально разработан для изучения промышленных аварий, но в настоящее время широко используется и в других областях. Это метод решения проблем. Фактор признается первопричиной, если его исключение предотвращает повторное появление нежелательного события.

4. Что такое логистическая регрессия?

Ответ:

Логистическая регрессия также упоминается как logit model. Это метод прогнозирования двоичного результата из линейной комбинации предикторных переменных.

5. Что такое система рекомендаций?

Ответ:

Системы рекомендаций являются подклассом систем фильтрации информации, что предназначены для прогнозирования предпочтений или оценок, которые пользователь предоставит продукту.

6. Объясните перекрестные проверки.

Ответ:

Профессия Data Scientist неразрывно связана с анализом и тестированием. Перекрестные проверки – это как раз метод проверки аналитической модели на независимых данных. Чаще используется в фоновых условиях, когда нужно оценить, насколько точно модель будет реализована на практике. Цель кросс-проверки заключается в определении набора данных для тестирования модели на этапе обучения, чтобы избежать таких проблем, как переназначение. Результат – оценка эффективности модели с максимально равномерным использованием данных.

7. Что такое коллаборативная фильтрация?

Ответ:

Процесс фильтрации, используемый большинством систем рекомендаций. Он позволяет находить шаблоны и информацию с помощью совместных перспектив, многочисленных источников данных и нескольких агентов.

8. Всегда ли методы градиентного спуска сходятся к подобной точке?

Ответ:

Нет. В некоторых случаях они достигают локальных минимумов или локальной оптимальной точки. Вы не достигнете глобальной оптимальной точки. Это предопределено данными и начальными условиями.

9. Профессия Data Scientist и тестирования A/B: какова цель таких тестов?

Ответ:

Это статистическое тестирование гипотез для рандомизированного эксперимента с двумя переменными A и B. Цель A/B тестов заключается в обнаружении любых изменений на веб-странице для улучшения результатов.

10. Перечислите недостатки линейной модели.

Ответ:

Некоторыми недостатками линейной модели являются:

  • Предположение о линейности ошибок.
  • Не может использоваться для результатов подсчета или двоичных результатов.
  • Есть проблемы с переобучением, которые не может решить линейная модель.

11. Что такое Закон больших чисел?

Ответ:

Это теорема, которая описывает результат выполнения одного и того же эксперимента много раз. Данная теорема составляет основу частотного мышления. В ней говорится, что среднее значение, дисперсия и стандартное отклонение выборки сходятся к тому, что они пытаются оценить.

12. Что такое мешающий фактор?

Ответ:

Это посторонние факторы статистической модели, которые прямо или обратно пропорционально коррелируют как с зависимой, так и с независимой переменной. Оценка не учитывает мешающий фактор, зато сама профессия Data Scientist предусматривает его изучение.

13. Объясните звездную схему.

Ответ:

Это традиционная схема базы данных с центральной таблицей. Ее функция – поддерживать многомерное представление данных, которые хранятся в ней. Центральная таблица, таблица фактов, содержит фактические или суммируемые данные и состоит из множества строк. Денормализованные таблицы измерений не такие большие и предназначены для описательной информации. Все они известны как таблицы поиска и в основном полезны в приложениях реального времени, поскольку сохраняют много памяти. Иногда звездообразные схемы включают несколько уровней суммирования для быстрого восстановления информации.

14. Расскажите о регулярном обновлении алгоритмов.

Ответ:

Data Scientist занимается обновлением алгоритмов, когда:

  • Хочет, чтобы модель развивалась через инфраструктуру, подобно потокам данных.
  • Меняется исходный источник данных.
  • Нестационарный случай.

15. Что такое собственное значение и собственный вектор?

Ответ:

Собственные векторы предназначены для понимания линейных преобразований. При анализе данных ученый обычно вычисляет Eigenvector для корреляционной или ковариационной матрицы. Собственные значения – это направления, по которым конкретное линейное преобразование действует путем сбрасывания, сжатия или растяжения.

16. Для чего нужна повторная выборка?

Ответ:

Повторная выборка выполняется в любом из этих случаев:

  • Оценка точности статистических данных выборок путем использования подмножеств доступных данных или рисования случайным образом с заменой из набора точек данных.
  • Подстановка меток в точках данных при выполнении тестов значимости.
  • Проверка моделей с использованием случайных подмножеств (самонастройка, перекрестная проверка).

17. Объясните выборочное смещение.

Ответ:

Выборочное смещение (selection bias) в Data Science является проблематичной ситуацией, при которой ошибка возникает из-за неслучайной выборки.

18. Каковы типы смещений, возникающих в процессе выборки?

Ответ:

  • Selection bias
  • Under coverage bias
  • Survivorship bias

19. Объясните суть survivorship bias.

Ответ:

Это логическая ошибка фокусирующих аспектов, которые поддерживают «выживаемость» какого-либо процесса и игнорируют процессы менее значимые. Может привести к неправильным выводам.

20. Как вы работаете с Random forest?

Ответ:

Основополагающий принцип данной методики заключается в том, что несколько слабых учеников объединяются, чтобы создать одного сильного. Этапы:

  • Создается несколько деревьев решений на загрузочных образцах данных.
  • Каждый раз, когда происходит расщепление, случайная выборка mm-предикторов образовывается из всех pp-предикторов.
  • Правило большого пальца: на каждом расколе m = p√m = p.
  • Прогнозы: по правилу большинства.

Быть ученым-исследователем нелегко, но выгодно, ведь на сегодняшний день существует немало вакансий. Подготовьтесь к суровым вопросам, и должность обязательно станет вашей!

Также рекомендуем Вам посмотреть:

Путь Data Scientist’а в 2017
27 шпаргалок по машинному обучению и Python в 2017
Большая подборка материалов по машинному обучению: книги, видеокурсы, онлайн-курсы
Машинное обучение за год

МЕРОПРИЯТИЯ

Комментарии

ВАКАНСИИ

Добавить вакансию
IT Recruiter
от 800 EUR до 1100 EUR
Программист PHP
Москва, от 100000 RUB до 180000 RUB

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ