Что такое Big Data
Анализ больших данных – относительно новая, но довольно востребованная сфера рынка труда. Спрос на специалистов по работе с данными постоянно растет. Big Data – это наборы данных очень больших размеров, которые также характеризуются многообразием и высокой скоростью обновления.
Аналитик больших данных – это специалист, который выявляет и исследует закономерности в данных с помощью специальных программных средств.
О том, чем занимаются специалисты по анализу больших данных, мы писали в статье Big Data: размер имеет значение. В этом материале, подготовленном при поддержке Факультета Аналитики Big Data онлайн-университета GeekBrains, мы сосредоточимся на навыках, необходимых для овладения профессией.
Необходимые знания
Английский язык
Актуальная информация по анализу больших данных в первую очередь появляется в англоязычных сообществах. Знание английского языка необходимо не только для чтения литературы по теме, но и для общения с зарубежными коллегами.
Soft skills
Работа в проектах над большими данными обычно разделяется между специалистами из разных сфер. Поэтому немаловажным является умение работать в команде. Развить свои soft skills помогут следующие курсы и книги:
- Building a Data Science Team – курс Университета Джонса Хопкинса;
- Working in Teams: A Practical Guide – курс, посвященный тонкостям работы в команде и разрешению конфликтов;
- книга 17 неопровержимых законов работы в команде Джона Максвелла;
- Балдеющие от адреналина и зомбированные шаблонами – руководство Тома Демарко и Тимоти Листер.
Математика
Если вы начинаете свой карьерный путь из другой сферы, необходимо прокачать знания в дискретной математике и статистике. Так вы сможете лучше понимать алгоритмы обработки и методы анализа больших данных.
На русском:
На английском:
Хочу подтянуть знания по математике, но не знаю, с чего начать. Что делать?
Если базовые концепции языка программирования можно достаточно быстро освоить самостоятельно, то с математикой могут возникнуть сложности. Чтобы помочь освоить математический инструментарий, «Библиотека программиста» совместно с преподавателями ВМК МГУ разработала курс по математике для Data Science, на котором вы:
- подготовитесь к сдаче вступительных экзаменов в Школу анализа данных Яндекса;
- углубитесь в математический анализ, линейную алгебру, комбинаторику, теорию вероятностей и математическую статистику;
- узнаете роль чисел, формул и функций в разработке алгоритмов машинного обучения.
- освоите специальную терминологию и сможете читать статьи по Data Science без постоянных обращений к поисковику.
Курс подойдет как начинающим специалистам, так и действующим программистам и аналитикам, которые хотят повысить свой уровень или перейти в новую область.
Программирование
Далее нужно изучить SQL – язык создания, модификации и управления базами данных.
Чаще всего для обработки и анализа больших данных используются такие языки программирования, как Python или R, или Rust. Изучить их основы совершенно бесплатно можно с помощью онлайн-платформ.
На русском:
- Программирование на Python
- Питон Тьютор
- Основы программирования на Python
- Анализ данных в R
- Программирование на Rust
🐍 Самоучитель по Python для начинающих
Самоучитель содержит 25 глав и 230 практических заданий:
- Особенности, сферы применения, установка, онлайн IDE
- Все, что нужно для изучения Python с нуля – книги, сайты, каналы и курсы
- Типы данных: преобразование и базовые операции
- Методы работы со строками
- Методы работы со списками и списковыми включениями
- Методы работы со словарями и генераторами словарей
- Методы работы с кортежами
- Методы работы со множествами
- Особенности цикла for
- Условный цикл while
- Функции с позиционными и именованными аргументами
- Анонимные функции
- Рекурсивные функции
- Функции высшего порядка, замыкания и декораторы
- Методы работы с файлами и файловой системой
- Регулярные выражения
- Основы скрапинга и парсинга
- Основы ООП: инкапсуляция и наследование
- Основы ООП – абстракция и полиморфизм
- Графический интерфейс на Tkinter
- Основы разработки игр на Pygame
- Основы работы с SQLite
- Основы веб-разработки на Flask
- Основы работы с NumPy
- Основы анализа данных с Pandas
Теория
Для того чтобы строить и интерпретировать прогностические модели, необходима сильная теоретическая база. В соответствующих онлайн-курсах включены основы статистики, высшей математики, необходимая теория и практические задания.
На русском:
На английском:
- Big Data Specialization courses от Калифорнийского университета в Сан-Диего;
- Managing Big Data with MySQL от Университета Дьюка;
- Developing Data Products от Университета Джонса Хопкинса;
- Modern Big Data Analysis with SQL от Cloudera;
- Data Engineering, Big Data, and Machine Learning on GCP от Google Cloud.
В дополнение:
- Гид «Big data смотрит на мир» от ПостНауки.
Книги по Big Data
После просмотра курсов и освоения базы приступайте к чтению научно-технической литературы по теме. Не стесняйтесь читать и научно-популярную литературу – это позволит посмотреть на область свежим взглядом.
- Машинное обучение Хенрика Бринка и Джозефа Ричардса;
- Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим Виктора Майер-Шенбергера;
- Верховный алгоритм. Как машинное обучение изменит наш мир Педро Домингоса;
- Корпоративное озеро больших данных. Новый подход к использованию Big Data и Data Science в бизнесе Алекса Горелика;
- Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт Алекса Дж. Гатмана, Джордана Голдмейера;
- Наука о данных. Базовый курс Келлехера Джона Д.;
- Data Science в действии Апельцина Леонарда;
- R в действии Роберта И. Кабакова;
- Big Data Натана Марца и Джеймса Воренна;
- The Ultimate Introduction to Big Data Френка Кане;
- Build a Career in Data Science Эмили Робинсон и Жаклин Нолис;
- Deep Learning Textbook Яна Гудфеллоу и Йошуа Бенжио.
Подкасты
Подкасты и Youtube-каналы – одни из лучших способов быть в курсе последних новостей Big Data.
На русском:
- Аналитика и growth mind-set – аналитика данных, обучение и разработка.
На английском:
- Data Skeptic – эксперты о статистике, машинном обучении, ИИ и Big Data;
- Code Newbie – об успешных программистах и людях, сумевших стать профессионалами с нуля;
- Learn to Code with Me – для новичков об основах программирования;
- Coding Blocks – о лучших практиках программирования, алгоритмах и ООП;
- Programming Throwdown – для разработчиков о работе на разных языках программирования;
- Arrested DevOps – новое о практиках разработки;
- Software Engineering Daily – о работе программного обеспечения.
- Super Data Science – Ведущий Джон Крон (Jon Krohn) рассказывает о последних тенденциях в отрасли, советах по карьерному росту и влиянии технологий на нашу жизнь.
- Data Engineering Podcast – еженедельные обсуждения DS с участием инженеров и предпринимателей, формирующих отрасль.
Практика
После знакомства с теорией и основами программирования закрепите полученные знания на практике. Начните анализировать реальные данные. В этом вам помогут онлайн-курсы и популярные ресурсы:
- Kaggle – самый известный ресурс для практики навыков анализа данных, участие в соревнование будет отличным дополнением к резюме;
Потребуются также и специальные инструменты для решения проблем, связанных с огромными объемами данных и их распределенной обработки:
Погружение в сферу
В первую очередь подпишитесь на сообщество Big Data and Analytics на LinkedIn. Там собраны не только курсы и офферы для аналитиков, но и вся актуальная информация от ведущих экспертов области. А также советуем следить за публикациями Ronald van Loon, Jules Polonetsky, DJ Patil и Bernard Marr. Они активно рассказывают о своем карьерном пути и делятся новостями из мира Data Science.
Сообщество
- Stack Overflow Big Data – огромный ресурс с вопросами и ответами о проблемах, связанных с кодом;
- Хабрахабр Big Data – статьи по анализу данных и машинному обучению;
- Women in Big Data – форум для женщин в сфере больших данных;
- MachineLearning.ru – вики-страница, посвященная машинному обучению на русском;
- Cross Validated – вопросы и ответы по статистике и выбору лучших моделей;
- R-bloggers – все, что вы хотели знать о R.
Телеграм-каналы по Data Science
- 🤖 Больше полезных материалов вы найдете на нашем телеграм-канале «Библиотека Data scientist’а»
- 🤖🎓 Подтянуть свои знания по DS вы можете на нашем телеграм-канале «Библиотека Data Science для собеса»
- 🤖🧩 Интересные задачи по DS для практики можно найти на нашем телеграм-канале «Библиотека задач по Data Science»
Комментарии