31 августа 2021

📊 С чего начать погружение в Big Data?

Автор статей и контент менеджер со стажем на фрилансе более 8 лет. Есть профильное ИТ образование, в 2014 окончила ДонГТУ по направлению "Специализированные компьютерные системы". Потому пишу технические тексты с кайфом, толком, расстановкой. В настоящее время тружусь контент менеджером/
Как стать специалистом по Big Data? Какое направление выбрать: Data Scientist, Data Analyst или Data Engineer? С чего начать изучение этого направления, разберем информацию для начинающих IT-шников.
📊 С чего начать погружение в Big Data?
Генерация и обмен большими данными между устройствами происходит практически в каждой социальной сфере. С Big Data работают такие гиганты Google, Uber, IBM, Amazon, оптимизируя работу с клиентами, снижая риск мошенничества и угроз безопасности данных. Специалисты по Big Data необходимы в сферах: маркетинга, поисковых технологий, ритейла, социальных сетях, играх, персонализации, речевых технологиях, финансовых учреждениях и в рекомендательных системах.

Вакансии Data Scientist, Data Engineer и Data Analyst все чаще встречаются в объявлениях с привлекательно высокими зарплатами. С чего начать погружение в Big Data? Чтобы влиться в это направление, рассмотрим основные знания, навыки и технологии, которые стоит изучить новичку для поиска работы.

📊 С чего начать погружение в Big Data?

Направления в Big Data

Существует три основных направления специалистов по Big Data: Data Science, Data Engineer, Data Analyst. Всем им желательно иметь высшее образование (бакалавр, магистр) по техническим специальностям: компьютерные системы, информационные технологии, экономическая кибернетика или подобным.

Разберем направления работы экспертов по большим данным:

  • Аналитикой занимаются Data Scientist и Data Analyst, в их обязанности входит формирование гипотез, поиск закономерностей в наборах данных (dataset), визуализация информации, подготовка данных к моделированию, разработка алгоритмов Machine Learning (машинного обучения), интерпретация полученных данных, а также изучение предметной области или бизнес-процесса.
  • Инженерия относится к профессиям Data Engineer и администратор. Такие специалисты занимаются поддержкой, созданием и настройкой программной и аппаратной инфраструктуры системы сбора, хранения и обработки информации, а также аналитикой массивов и информационных потоков, в том числе конфигурированием облачных (Cloud) и локальных кластеров.

Специалист по Big Data должен знать, что такое самодисциплина и уметь следовать рабочему процессу, который бывает монотонным и однообразным.

Для работы с большими данными, необходимо иметь хотя бы базовые знания:

📊 С чего начать погружение в Big Data?

Что нужно знать Data Scientist?

Исследователь, ученый по данных (Data Scientist) в основном занимается извлечением полезной информации из массивов сведений.

Основные знания, которыми должен обладать специалист Data Scientist:

  • Математика, а точнее теория вероятностей, статистика и дискретная математика. Знания математики необходимы и для машинного обучения, что предполагает также использование линейной алгебры.
  • Различные информационные технологии, средства и методы для интеллектуального анализа данных (Data Mining): языки программирования (Haskell, R, Julia, Python), среды для статического анализа данных (MatLab, R-Studio, Jupyter Notebook), структуры и алгоритмы данных, машинное обучение и иные ветви искусственного интеллекта (генетические алгоритмы, искусственные нейронные сети, deep learning).
  • Понимание предметной области.

Что следует изучать Data Engineer?

Роли в Data Engineering:

  • Database Administrator должен обладать обширными знаниями по базам данным, уметь настраивать СУБД и уровни доступа пользователей, обслуживать и обеспечивать бесперебойную работу системы.
  • Data Architect создает основу для управления данными, их прием из разных источников, интеграцию и обслуживание. Для этого стоит использовать Apache Pig, SQL, Apache Spark, Hive, XML, Apache Zookeeper, Apache Kafka и тому подобные инструменты.
  • Data Engineer должен уметь пользоваться инструментами для работы с базами данных, знать языки программирования (Python или Java), уметь пользоваться системами AWS, HDFS (Hadoop S3 Buckets, MapReduce).

Каждому из перечисленных специалистов важно понимать, как работают операционные системы, а также обладать навыками машинного обучения.

📊 С чего начать погружение в Big Data?

Какой базой должен обладать Data Analyst

Для аналитика не обязательно высшее образование в области информационных технологий. Однако Data Analyst должен разбираться в бизнес-процессах, понимать статистику, выполнять машинное обучение, уметь работать с инструментами.

Типа анализа данных:

  • Описательный – для сбора характеристик, обработки полученной информации.
  • Прогнозный направлен на прогнозирование будущих результатов.
  • Диагностический помогает обнаружить ошибки в данных.
  • Предписательный включает перечисленные выше типы анализа информации.
В обязанности аналитика также входят задачи по Business Inteligence (BI) и оптимизации процессов на производстве. Специалист должен знать методы анализа бизнес-процессов: SWOT, ABC, IDEF, BPMN, ССП, PDCA, EPC и прочие.

Базовые навыки Data Analyst:

  • Умение извлекать данные из различных источников (Hadoop, MS SQL, MySQL и др.).
  • Обработка информации с использованием Scala, R, Python или Java.
  • Визуализация структурированных данных с применением Qlik, Plotly или Tableau.
  • Формирование исследования, которое соответствует категории бизнес-задачи.
  • Предоставление гипотез в соответствии с задачами бизнеса.

Дополнительно аналитик может использовать Apache Storm, Apache Kinesis, Apache Spark Streaming.

Специалистам по Big Data нужно уметь строить графические модели, используя байесовские и нейронные сети, кластеризацию и виды анализа. Data Scientist, Data Analyst или Data Engineer должны обладать навыками работы с Data Lakes (озерами данных), а также разбираться в вопросах безопасности и управления данными (Data Governance). Стать экспертом поможет углубленная проработка каждого из навыков.

***

Хочу подтянуть знания по математике, но не знаю, с чего начать. Что делать?

Если базовые концепции языка программирования можно достаточно быстро освоить самостоятельно, то с математикой могут возникнуть сложности. Чтобы помочь освоить математический инструментарий, «Библиотека программиста» совместно с преподавателями ВМК МГУ разработала курс по математике для Data Science, на котором вы:

  • подготовитесь к сдаче вступительных экзаменов в Школу анализа данных Яндекса;
  • углубитесь в математический анализ, линейную алгебру, комбинаторику, теорию вероятностей и математическую статистику;
  • узнаете роль чисел, формул и функций в разработке алгоритмов машинного обучения.
  • освоите специальную терминологию и сможете читать статьи по Data Science без постоянных обращений к поисковику.

Курс подойдет как начинающим специалистам, так и действующим программистам и аналитикам, которые хотят повысить свой уровень или перейти в новую область.

Источники

МЕРОПРИЯТИЯ

Комментарии

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ