Как научиться data science?
Давно хотели разобраться, как стать аналитиком данных, изучить data science, но не знали с чего начать? Тогда эта статья для вас.
Кто из нас не слышал про "big data"? Вряд ли найдётся хоть один. В последние годы интерес к работе с данными значительно вырос, так как крупным IT компаниям нужно придумывать всё новые решения для анализа, обработки и последующего использования данных. Некоторые даже запускают учебные программы совместно с вузами. Однако у большинства нет понимания, что это за люди, аналитики данных. Если вы один из таких людей, и у вас есть желание стать аналитиком данных, то эта статья для вас. Мы отобрали только бесплатные средства обучения, которыми можно пользоваться вне зависимости от вашего местоположения.
Чем занимаются аналитики данных
Так называемые data analyst`ы занимаются её информации и анализом для получения наглядных, воспринимаемых человеком результатов. К таким людям обычно причисляют специалистов по big data, data mining, машинному обучению, анализу систем, бизнес-аналитиков.
Что смотреть
Лекции "Школы анализа данных" от Яндекса
ШАД — курсы по анализу данных от сотрудников Яндекса. Поступить туда довольно непросто, минимум, предъявляемый к поступающим — базовые разделы высшей алгебры, математического анализа, комбинаторики, теории вероятностей, а также основы программирования. К счастью, курсы записываются, чтобы все желающие смогли обучаться по видеолекциям.
Курс "Машинное обучение"
На курсе учат применять теорию вероятности и статистику, рассказывают об основах машинного обучения, учат строить алгоритмы
Курс «Алгоритмы и структуры данных поиска»
Во время лекций рассказывается про алгоритмы поиска и сортировки больших объёмов данных, алгоритмы и манипуляции со строками, теоретико-графовые алгоритмы, построение и анализ структур данных.
Курс «Параллельные и распределенные вычисления»
Для тех, кто хотел давно познакомиться с многопоточным и параллельным программированием, а также MapReduce.
Курс «Дискретный анализ и теория вероятностей»
В рамках курса рассматриваются основные понятия и методы комбинаторного, дискретного и асимптотического анализа, теории вероятностей, статистики, а также демонстрируется их применение.
Курс «Сложность вычислений»
После просмотра курса вы узнаете о вероятностных классах сложности и основных приёмов анализа и построения данных.
Лекции Технострим Mail.ru Group
Программы курсов предназначены для учащихся нескольких вузов Москвы, но доступны любым желающим. Будущим аналитикам мы советуем следующие сборники лекций:
- Алгоритмы и структуры данных;
- Базы данных;
- Введение в анализ данных;
- Методы обработки больших объёмов данных;
- Data Mining;
- Проектирование СУБД.
Лекции Big Data University
Big Data University — онлайн курс, созданный совместно с IBM для новичков и людей не имеющих математического образования. Лекции, помогающие ознакомиться с основами работы с данными записаны на понятном английском языке.
Welch Labs
На этом канале собраны лекции по математике, информатике, программированию и машинному обучению. В процессе, приводятся примеры применения изучаемых вещей в реальной жизни. Лекции на английском, но есть отличные русские субтитры.
Курс "Обучение по структурированным данным: Введение в вероятностные графические модели" факультета компьютерных наук НИУ ВШЭ
Курс ориентирован на углублённое введение в теорию и приложения одного из самых популярных на сегодняшний день подходов к решению таких задач - дискретных вероятностных графических моделей. Язык курса - английский.
Канал sentdex
Канал полностью посвящен работе с данными. Причем полезные вещи для себя найдут не только те, кому интересна математика. Здесь есть видео по анализу и программированию для финансовых аналитиков и робототехнике с помощью Rasperri Pi.
Канал Siraj Raval
Парень рассказывает о современных технологиях и как с ними работать. Научиться работе с данными помогут курсы по глубинному обучению, data science, машинному обучению.
Канал Data School
Если вы только краем уха слышали что-то про машинное обучение, но уже заинтересовались, то этот канал для вас. Автор на понятном уровне, с примерами объяснит что это, как работает и где применяется.
Где заниматься
Для тех, кто не уверен, что готов полностью самостоятельно обучаться смотря лекции существуют онлайн-курсы с заданиями с проверкой.
Курсы по data science на Coursera
Не нужно объяснять что это за платформа. Нужно выбирать курс и начинать заниматься.
Stepik.org
Анализ данных в R
В первой части рассматриваются все основные этапы статистического анализа R, считывание данных, предобработка данных, применение основных статистических методов и визуализация результатов. Слушатели научатся основным элементам программирования на языке R, что позволит быстро и эффективно решать широчайший спектр задач, возникающих при обработке данных.
Во второй части разбираются несколько продвинутых тем, которые не были рассмотрены в первой: предобработка данных при помощи пакетов data.table и dplyr, продвинутые приемы визуализации, работа в R Markdown.
Введение в базы данных
Авторы обещают познакомить слушателей с методами структурированного хранения данных, основами SQL, принципами использования баз данных в приложениях, обзор нереляционных способов хранения данных.
Погружение в СУБД
Курс для тех, кто имеет некоторый опыт общения с реляционными СУБД и желает знать больше про то, как они работают. В курсе затронуты:
- проектирование схемы базы данных;
- управление транзакциями;
- оптимизация запросов;
- новые возможности реляционных СУБД
Hadoop. Система для обработки больших объемов данных
Курс посвящен методам обработки больших объемов данных с помощью системы Hadoop. После прохождения курса вы получите знания основных способов хранения и методов обработки больших объемов данных, поймете принципы работы распределенных систем в контексте фреймворка Hadoop и освоите практические навыки разработки приложений, используя программную модель MapReduce.
Datacamp
Для тех, кто хочет научиться аналитике данных и хотя бы немного умеет программировать на Python или R. Курсы доступны бесплатно, на английском языке.
Dataquest
Сервис для изучения data science для новичков. Можно убить сразу двух зайцев: научиться программировать на Python и работать с данными. Задания построены на жизненных ситуациях и реальных данных. Доступно 16 бесплатных курсов.
Kaggle
Kaggle — платформа для соревнования по data science, где с помощью решения проблем с реальными данными, можно неплохо прокачать свой опыт, а самые успешные получают достойные денежные призы.
Что читать
- «Наглядная статистика. Используем R!»;
- «Говори на языке диаграмм»;
- «Большие данные становятся личными»;
- «Принцип пирамиды»;
- «Статистика для всех»;
- «Введение в Data Mining».
Источники: