Работая в области науки о данных, вы должны знать базовые вещи и выбрать одну из узких специализаций. Поскольку в Data science нет их универсального понимания, сделать это будет непросто. Попробуем определить примерный круг направлений, на которые стоит ориентироваться. Знание предлагаемых рынком возможностей даст вам преимущество при трудоустройстве, поскольку для получения конкретной должности нужны определенные навыки.
Роли в команде
Данные проходят ряд этапов, прежде чем принимающий решения человек увидит красивую и понятную презентацию. Мы расположили позиции в порядке их появления в процессе работы с данными. Представить ситуацию наглядно можно, посмотрев ролик:
Основные, которые чаще всего можно встретить среди вакансий
1. Data architect.
Архитектура данных – это правила, политики, стандарты и модели, которые определяют тип собранной информации, как она используются и хранится. Сюда входит интеграция данных в пределах организации и ее систем, а также решение вопросов безопасности и доступности. Всем этим занимается архитектор данных.
Такой специалист критически необходим в проектах с big data. Обычно в одной компании он взаимодействует сразу с несколькими командами, иногда совмещая основную работу с ролью дата-инженера.
Типичные задачи: вместе с разработкой детального плана по данным специалист предоставляет необходимые инструменты и системы для дата-инженеров. При каких-то изменениях в компании он понимает, что произойдет с данными и может предпринять меры для минимизации последствий.
Что нужно знать: SQL, noSQL, XML, Hive, Pig, Hadoop, Spark, машинное обучение, визуализацию, моделирование и хранение данных, а также ETL (extraction transformation and loan) и еще немного.
2. Data engineer.
Знания машинного обучения и статистики для инженера по данным необязательны, но это очень важный специалист в любой команде. Без них не будет данных, а следовательно и никакой data science.
Типичные задачи: эти ребята ответственны за получение данных, их обработку и хранение. Они занимаются построением, тестированием и обновлением ИТ-инфраструктуры. Дата-инженеры приводят в действие все, что спроектировал дата-архитектор. Тогда дата-сайентист будет иметь доступ к информации и сможет запускать свои алгоритмы.
Что нужно знать: потребуются продвинутые навыки программирования для работы с большими датасетами и построения каналов, по которым приходят данные. Технологии: SQL, noSQL, Hive, Pig, Matlab, SAS, Python, Java, Ruby, C++, Perl, популярные API и ETL-инструменты.
Перспективы: от джуна до главы дата-инженерии.
2. Data analyst.
Эта роль менее техническая, чем data scientist, хотя во многом они похожи и их часто путают.
Типичные задачи: дата-аналитики отвечают на вопросы своих коллег, ищут ответы среди представленных данных, проводят статистический анализ и переводят кучу цифр на человеческий язык в виде отчетов и визуализаций. Они не предсказывают и не ищут новые тенденции самостоятельно. Пример работы: оценить эффективность маркетинговой компании, и как она повлияла на продажи.
Что нужно знать: математику и статистику, способы принятия решений на основе цифр, методы очистки (подготовки для анализа) и визуализации данных. Также потребуется средний уровень программирования на Python или R, средний уровень знания SQL-запросов, MS Excel, SAS, Tebleau и др.
Перспективы: переход в дата-сайентисты , если хотите развиваться в машинном обучении или дата-инженеры, если вас больше интересует программирование. В зарплатной потолок дата-аналитики упираются примерно через 10 лет после прихода в профессию.
3. Data scientist.
Из-за отсутствия четко разграниченных ролей, некоторые компании ищут так называемых «единорогов»: специалистов, которые прекрасно разбираются в статистике, математике, машинном обучении, программировании, бизнес-задачах и визуализации одновременно. Такие люди есть, но их очень мало.
Обычный смертный дата-сайентист просто больше погружен в математику и программирование, чем дата-аналитик. У него больше свободы на эксперименты и изучение трендов, о которых менеджмент может не догадываться.
Дата-сайентист пробирается через море неструктурированных данных, чтобы определить вопросы и вытащить дающую нужные ответы информацию. Все это нужно делать, понимая бизнес-задачи. И да, в отличие от дата-аналитика, дата-сайентист занимается и предиктивным анализом.
Название этой роли не просто так включает слово «science». Здесь есть процесс научных исследований – тестирование гипотез для получение практических знаний.
Типичные задачи: определение бизнес-вопросов, преобразование данных, тренировка и настройка моделей машинного обучения, оценка результатов, предсказания, отчеты и визуализация по результатам. Пример работы: предсказать вероятность отказа клиента от подписки, кластеризация клиентов по смысловым группам.
Что нужно знать: ученому навыки дата-аналитика + хорошее понимание методов машинного обучения с учителем и без. Потребуется глубокое понимание статистики и возможность оценивать статистические модели, а также более продвинутые навыки программирования.
Перспективы: переход в роли ведущего дата-инженера или архитектора данных, инженера по машинному обучению, ведущего дата-сайентиста (chief data officer – главный по данным).
4. Machine Learning Engineer.
Если коротко, инженер по машинному обучению – это (простите за тавтологию) специализирующийся на машинном обучении дата-сайентист.
Типичные задачи: программные решения для автоматизации моделей ML; проектирование, разработка b тестирование ML-систем. Инженер по ML тренирует и впоследствии поддерживает модели машинного обучения.
Что нужно знать: требуется хорошее понимание статистики и математики. Технологический стек: Java, Python, JS, а также ML-фреймворки TensorFlow или Keras, и, разумеется, Hadoop или аналоги.
5. Business Intelligence (BI) Developer.
Основная задача BI-разработчиков – структурировать и представить полученные данные в понятном виде для менеджмента. Обычно они не занимаются анализом.
В эту специальность выгодно приходить с нетехническим бэкграундом, потому что здесь нужно хорошее понимание бизнес-операций и коммуникация.
Типичные задачи: разработка стратегий, как другим сотрудникам эффективно пользоваться полученной сайентистами и аналитиками информацией; как во время получать нужную информацию для принятия соответствующего решения. Также BI-разработчик проектирует, создает и поддерживает хранилища, пакеты ETL, дашборды и аналитические отчеты.
Что нужно знать: SQL, хранение данных, SSRS/SSAS/SSIS, ETL, Report Builder, Power BI, DAX, Tableau, дашборды, правила безопасности, языки программирования VB, C#, JavaScript и др.
Перспективы: BI-разработчик —> BI-аналитик —> BI-архитектор —> BI-менеджер.
6. Database administrator (DBA)
Когда база данных готова, за ней нужно кому-то присматривать. Такой специалист должен уметь выявлять неисправности, быстро ориентироваться в экстренных ситуациях и решать связанные с данными проблемы.
Типичные задачи: администратор баз данных ответственен за резервное копирование и восстановление информации, а также за безопасность и моделирование. Он следит, чтобы у всех был к ним доступ, все хорошо работало, а также соединяет старые и новые базы данных.
Что нужно знать: языки баз данных (чаще всего SQL, NoSQL), а также тот язык программирования, с которым работает компания. Базы данных от Oracle и Microsoft, облачные сервисы Microsoft Azure и Amazon Web Services.
Перспективы: менеджер компьютерных и информационных систем.
Лучше понять отличия между основными ролями в data science
Другие позиции в data science
ML research and development engineer
Эти специалисты непосредственно разрабатывают новые алгоритмы и модели машинного обучения.
Data journalists
Преобразуют данные в захватывающие истории. Должны разбираться в статистике и уметь кодить.
Subject Matter Expert
Знают, как применять аналитику в рамках определенного контекста в организации. Такой специалист следит, чтобы полученные аналитические инсайты применяются на практике.
Заключение
В зависимости от размера компании и ее планов по работе с данными, могут добавляться и другие роли: статистика, специалиста по визуализации, специалиста по качеству данных, менеджера и др.. Некоторые из них могут сливаться в одну: например, дата-инженера и архитектора данных.
Большинство необходимых для самоподготовки материалов можно найти в нашей предыдущей статье, но большинство компаний ищут специалистов с высшим техническим образованием. Если вы закончили вуз по другой специальности, стоит задуматься о получении магистерской степени или диплома о профессиональной переподготовки. Это упростит поиск работы.
Хочу подтянуть знания по математике, но не знаю, с чего начать. Что делать?
Если базовые концепции языка программирования можно достаточно быстро освоить самостоятельно, то с математикой могут возникнуть сложности. Чтобы помочь освоить математический инструментарий, «Библиотека программиста» совместно с преподавателями ВМК МГУ разработала курс по математике для Data Science, на котором вы:
- подготовитесь к сдаче вступительных экзаменов в Школу анализа данных Яндекса;
- углубитесь в математический анализ, линейную алгебру, комбинаторику, теорию вероятностей и математическую статистику;
- узнаете роль чисел, формул и функций в разработке алгоритмов машинного обучения.
- освоите специальную терминологию и сможете читать статьи по Data Science без постоянных обращений к поисковику.
Курс подойдет как начинающим специалистам, так и действующим программистам и аналитикам, которые хотят повысить свой уровень или перейти в новую область.
Комментарии