Вакансии Data Scientist, Data Engineer и Data Analyst все чаще встречаются в объявлениях с привлекательно высокими зарплатами. С чего начать погружение в Big Data? Чтобы влиться в это направление, рассмотрим основные знания, навыки и технологии, которые стоит изучить новичку для поиска работы.
Направления в Big Data
Разберем направления работы экспертов по большим данным:
- Аналитикой занимаются Data Scientist и Data Analyst, в их обязанности входит формирование гипотез, поиск закономерностей в наборах данных (dataset), визуализация информации, подготовка данных к моделированию, разработка алгоритмов Machine Learning (машинного обучения), интерпретация полученных данных, а также изучение предметной области или бизнес-процесса.
- Инженерия относится к профессиям Data Engineer и администратор. Такие специалисты занимаются поддержкой, созданием и настройкой программной и аппаратной инфраструктуры системы сбора, хранения и обработки информации, а также аналитикой массивов и информационных потоков, в том числе конфигурированием облачных (Cloud) и локальных кластеров.
Специалист по Big Data должен знать, что такое самодисциплина и уметь следовать рабочему процессу, который бывает монотонным и однообразным.
Для работы с большими данными, необходимо иметь хотя бы базовые знания:
- архитектуры компьютеров и серверов;
- работы операционных систем и их взаимодействия с железом;
- СУБД (MySQL, Oracle, Postgres, Amazon Redshift, Microsoft Azure, Mongo, Hadoop, BigQuery или др.);
- по математическому анализу;
- по теории вероятностей и статистике.
Что нужно знать Data Scientist?
Исследователь, ученый по данных (Data Scientist) в основном занимается извлечением полезной информации из массивов сведений.
Основные знания, которыми должен обладать специалист Data Scientist:
- Математика, а точнее теория вероятностей, статистика и дискретная математика. Знания математики необходимы и для машинного обучения, что предполагает также использование линейной алгебры.
- Различные информационные технологии, средства и методы для интеллектуального анализа данных (Data Mining): языки программирования (Haskell, R, Julia, Python), среды для статического анализа данных (MatLab, R-Studio, Jupyter Notebook), структуры и алгоритмы данных, машинное обучение и иные ветви искусственного интеллекта (генетические алгоритмы, искусственные нейронные сети, deep learning).
- Понимание предметной области.
Что следует изучать Data Engineer?
Роли в Data Engineering:
- Database Administrator должен обладать обширными знаниями по базам данным, уметь настраивать СУБД и уровни доступа пользователей, обслуживать и обеспечивать бесперебойную работу системы.
- Data Architect создает основу для управления данными, их прием из разных источников, интеграцию и обслуживание. Для этого стоит использовать Apache Pig, SQL, Apache Spark, Hive, XML, Apache Zookeeper, Apache Kafka и тому подобные инструменты.
- Data Engineer должен уметь пользоваться инструментами для работы с базами данных, знать языки программирования (Python или Java), уметь пользоваться системами AWS, HDFS (Hadoop S3 Buckets, MapReduce).
Каждому из перечисленных специалистов важно понимать, как работают операционные системы, а также обладать навыками машинного обучения.
Какой базой должен обладать Data Analyst
Для аналитика не обязательно высшее образование в области информационных технологий. Однако Data Analyst должен разбираться в бизнес-процессах, понимать статистику, выполнять машинное обучение, уметь работать с инструментами.
Типа анализа данных:
- Описательный – для сбора характеристик, обработки полученной информации.
- Прогнозный направлен на прогнозирование будущих результатов.
- Диагностический помогает обнаружить ошибки в данных.
- Предписательный включает перечисленные выше типы анализа информации.
Базовые навыки Data Analyst:
- Умение извлекать данные из различных источников (Hadoop, MS SQL, MySQL и др.).
- Обработка информации с использованием Scala, R, Python или Java.
- Визуализация структурированных данных с применением Qlik, Plotly или Tableau.
- Формирование исследования, которое соответствует категории бизнес-задачи.
- Предоставление гипотез в соответствии с задачами бизнеса.
Дополнительно аналитик может использовать Apache Storm, Apache Kinesis, Apache Spark Streaming.
Специалистам по Big Data нужно уметь строить графические модели, используя байесовские и нейронные сети, кластеризацию и виды анализа. Data Scientist, Data Analyst или Data Engineer должны обладать навыками работы с Data Lakes (озерами данных), а также разбираться в вопросах безопасности и управления данными (Data Governance). Стать экспертом поможет углубленная проработка каждого из навыков.
Хочу подтянуть знания по математике, но не знаю, с чего начать. Что делать?
Если базовые концепции языка программирования можно достаточно быстро освоить самостоятельно, то с математикой могут возникнуть сложности. Чтобы помочь освоить математический инструментарий, «Библиотека программиста» совместно с преподавателями ВМК МГУ разработала курс по математике для Data Science, на котором вы:
- подготовитесь к сдаче вступительных экзаменов в Школу анализа данных Яндекса;
- углубитесь в математический анализ, линейную алгебру, комбинаторику, теорию вероятностей и математическую статистику;
- узнаете роль чисел, формул и функций в разработке алгоритмов машинного обучения.
- освоите специальную терминологию и сможете читать статьи по Data Science без постоянных обращений к поисковику.
Курс подойдет как начинающим специалистам, так и действующим программистам и аналитикам, которые хотят повысить свой уровень или перейти в новую область.
Источники
- https://www.thebalancecareers.com/top-7-big-data-jobs-4588947
- https://spark.ru/startup/eastwind-company/blog/33965/professii-big-data-kto-zdes-rabotaet-i-kak-syuda-popast
- https://vc.ru/flood/37763-big-data-s-chego-nachat
- https://www.analyticsvidhya.com/blog/2018/11/data-engineer-comprehensive-list-resources-get-started/
- https://data-flair.training/blogs/data-analytics-tutorial/
- https://youtu.be/nUMO7_h7StU
- https://www.youtube.com/watch?v=7WRlYJFG7YI
- https://youtu.be/GRFQxd_0k3M
- https://youtu.be/q59rbUyhKCg
- https://www.youtube.com/watch?v=r-uOLxNrNk8
Комментарии