Что такое Big Data
Анализ больших данных – относительно новая, но довольно востребованная сфера рынка труда. Спрос на специалистов по работе с данными постоянно растет. Big Data – это наборы данных очень больших размеров, которые также характеризуются многообразием и высокой скоростью обновления.
Аналитик больших данных – это специалист, который выявляет и исследует закономерности в данных с помощью специальных программных средств.
О том, чем занимаются специалисты по анализу больших данных, мы писали в статье Big Data: размер имеет значение. В этом материале, подготовленном при поддержке Факультета Аналитики Big Data онлайн-университета GeekBrains, мы сосредоточимся на навыках, необходимых для овладения профессией.
Необходимые знания
Английский язык
Актуальная информация по анализу больших данных в первую очередь появляется в англоязычных сообществах. Знание английского языка необходимо не только для чтения литературы по теме, но и для общения с зарубежными коллегами.
Soft skills
Работа в проектах над большими данными обычно разделяется между специалистами из разных сфер. Поэтому немаловажным является умение работать в команде. Развить свои soft skills помогут следующие курсы и книги:
- Building a Data Science Team – курс Университета Джонса Хопкинса;
- Working in Teams: A Practical Guide – курс, посвященный тонкостям работы в команде и разрешению конфликтов;
- книга 17 неопровержимых законов работы в команде Джона Максвелла;
- Паттерны поведения проектных команд – руководство Тома Демарко и Тимоти Листер.
Математика
Если вы начинаете свой карьерный путь из другой сферы, необходимо прокачать знания в дискретной математике и статистике. Так вы сможете лучше понимать алгоритмы обработки и методы анализа больших данных.
На русском:
На английском:
Программирование

Далее нужно изучить SQL – язык создания, модификации и управления базами данных.
Чаще всего для обработки и анализа больших данных используются такие языки программирования, как Python или R. Изучить их основы совершенно бесплатно можно с помощью онлайн-платформ.
На русском:
На английском:
Теория

Для того чтобы строить и интерпретировать прогностические модели, необходима сильная теоретическая база. В соответствующих онлайн-курсах включены основы статистики, высшей математики, необходимая теория и практические задания.
На русском:
- Математика и Python для анализа данных от МФТИ;
- Введение в машинное обучение от НИУ ВШЭ;
- Специализация Машинное обучение и анализ данных от Яндекс и МФТИ;
- Hadoop. Система для обработки больших объемов данных от Mail.ru.
На английском:
- Big Data Specialization courses от Калифорнийского университета в Сан-Диего;
- Managing Big Data with MySQL от Университета Дьюка;
- Developing Data Products от Университета Джонса Хопкинса;
- Modern Big Data Analysis with SQL от Cloudera;
- Big Data Essentials: HDFS, MapReduce and Spark RDD от Яндекс;
- Data Engineering, Big Data, and Machine Learning on GCP от Google Cloud.
В дополнение:
- Гид «Big data смотрит на мир» от ПостНауки.
Литература по Big Data
После просмотра курсов и освоения базы приступайте к чтению научно-технической литературы по теме. Не стесняйтесь читать и научно-популярную литературу – это позволит посмотреть на область свежим взглядом.
- Машинное обучение Хенрика Бринка и Джозефа Ричардса;
- Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим Виктора Майер-Шенбергера;
- Верховный алгоритм. Как машинное обучение изменит наш мир Педро Домингоса;
- R в действии Роберта И. Кабакова;
- Big Data Натана Марца и Джеймса Воренна;
- The Ultimate Introduction to Big Data Френка Кане;
- Build a Career in Data Science Эмили Робинсон и Жаклин Нолис;
- Deep Learning Textbook Яна Гудфеллоу и Йошуа Бенжио.
Подкасты

Подкасты и Youtube-каналы – одни из лучших способов быть в курсе последних новостей Big Data. Относительно YouTube обязательно изучите нашу подборку из 30 YouTube-каналов и плейлистов о Data Science. А ниже мы собрали подборку подкастов.
На русском:
- Russian Data Science Podcast
- Мысли и методы – научно-образовательный подкаст о программировании;
- Moscow Python Podcast. Big data, Data science, Machine Learning
- Как Big Data зарабатывает бизнесу деньги – выпуск о применении больших данных в бизнесе;
- Большая Дата – серии подкастов от Билайн;
- Лучшие в своём деле: Артур Хачуян | Большие данные – подкаст от Ильи Варламова;
- Всё о Data Science / Big data и дополненная реальность / Интервью с Data Scientist
На английском:
- Data Skeptic – эксперты о статистике, машинном обучении, ИИ и Big Data;
- Code Newbie – об успешных программистах и людях, сумевших стать профессионалами с нуля;
- Learn to Code with Me – для новичков об основах программирования;
- Coding Blocks – о лучших практиках программирования, алгоритмах и ООП;
- Programming Throwdown – для разработчиков о работе на разных языках программирования;
- Arrested DevOps – новое о практиках разработки;
- Software Engineering Daily – о работе программного обеспечения.
Практика
После знакомства с теорией и основами программирования закрепите полученные знания на практике. Начните анализировать реальные данные. В этом вам помогут онлайн-курсы и популярные ресурсы:
- Kaggle – самый известный ресурс для практики навыков анализа данных, участие в соревнование будет отличным дополнением к резюме;
- Тренировки по машинному обучению от сообщества программистов Open Data Science;
- Машинное обучение Azure от Microsoft поможет понять, как устроены алгоритмы анализа данных.
Потребуются также и специальные инструменты для решения проблем, связанных с огромными объемами данных и их распределенной обработки:
Погружение в сферу
В первую очередь подпишитесь на сообщество Big Data and Analytics на LinkedIn. Там собраны не только курсы и офферы для аналитиков, но и вся актуальная информация от ведущих экспертов области. А также советуем следить за публикациями Ronald van Loon, Jules Polonetsky, DJ Patil и Bernard Marr. Они активно рассказывают о своем карьерном пути и делятся новостями из мира Data Science.
Сообщество

- Stack Overflow Big Data – огромный ресурс с вопросами и ответами о проблемах, связанных с кодом;
- Хабрахабр Big Data – статьи по анализу данных и машинному обучению;
- Women in Big Data – форум для женщин в сфере больших данных;
- Open Data Science – русскоязычное сообщество для специалистов из разных областей науки о данных;
- MachineLearning.ru – вики-страница, посвященная машинному обучению на русском;
- Cross Validated – вопросы и ответы по статистике и выбору лучших моделей;
- R-bloggers – все, что вы хотели знать о R.
Направления в карьере
Мое видение – это мир, наполненный грамотными профессионалами в сфере данных. Профессионалы, которые могут использовать данные для разработки идей и принятия решений, основанных на данных
По данным отчета LinkedIn 2020 г., специалисты по анализу данных на протяжении последних трех лет остаются одними из самых востребованных в таких отраслях, как информационные технологии и услуги, программное обеспечение, интернет, финансовые услуги, высшее образование, а также в научно-исследовательской сфере. Вакансии варьируются от младших разработчиков до старших вице-президентов и директоров по инжинирингу.
Средняя зарплата специалиста в области Data Science находится в диапазоне от $89 тыс. до $242 тыс. в США, а Европейская комиссия в своем отчете за 2019 г. объявила, что к 2020 г. в Европе будет создано 100 000 новых рабочих мест, связанных с данными.
Хочу подтянуть знания по математике, но не знаю, с чего начать. Что делать?
Если базовые концепции языка программирования можно достаточно быстро освоить самостоятельно, то с математикой могут возникнуть сложности. Чтобы помочь освоить математический инструментарий, «Библиотека программиста» совместно с преподавателями ВМК МГУ разработала курс по математике для Data Science, на котором вы:
- подготовитесь к сдаче вступительных экзаменов в Школу анализа данных Яндекса;
- углубитесь в математический анализ, линейную алгебру, комбинаторику, теорию вероятностей и математическую статистику;
- узнаете роль чисел, формул и функций в разработке алгоритмов машинного обучения.
- освоите специальную терминологию и сможете читать статьи по Data Science без постоянных обращений к поисковику.
Курс подойдет как начинающим специалистам, так и действующим программистам и аналитикам, которые хотят повысить свой уровень или перейти в новую область.
Комментарии