О работе специалистов по анализу больших данных, необходимых для этого навыках и полезных для карьерного роста мероприятиях мы уже писали. Сегодня речь пойдет о блогах и книгах, которые могут пригодиться в работе и учебе, если вы интересуетесь сферой Big Data.
Блоги и ресурсы
На русском
Open Data Science
Русскоязычное сообщество для специалистов из разных областей науки о данных, в котором публикуются соревнования и проекты.
MachineLearning.ru
Вики-страница и новостной ресурс, где публикуются интересные статьи статей и сведения о достижениях ведущих российских научных школ в области машинного обучения, распознавания образов и анализа данных.
Хабрахабр Big Data
Блог про большие данные и машинное обучение от сообщества российских ИТ-специалистов.
Школа Big Data Blog
Раздел, в котором публикуются статьи и новости о технологиях Big Data, Machine Learning и Data Science, администрировании распределенных кластеров Hadoop, NoSQL, Kafka, Spark, а также реальные истории и лучшие практики их прикладного использования в российских и зарубежных компаниях.
На английском
Data Mania
Блог Лилиан Пирсон, цель которого – сделать обучение на основе данных доступным и интересным. Здесь опубликовано более 140 статей по темам науки о данных, больших данных и аналитики. Подойдет для новичков и начинающих специалистов.
Revolutions
Блог об основных достижениях в области искусственного интеллекта, машинного обучения, науки о данных, больших данных и визуализации с помощью R и Python.
Stack Overflow Big Data
Огромный ресурс с вопросами и ответами об инфраструктуре, алгоритмах и структурах данных, статистике, а также о связанных с кодом проблемах.
Fast Forward Labs
Блог работающей в сфере искусственного интеллекта компании о вероятностном программировании, конфиденциальности и шифрования, а также интервью с экспертами. Подойдет для аудитории среднего и продвинутого уровня, которая заинтересована в области больших данных.
Women in Big Data
Форум и сборник мероприятий в сфере больших данных для женщин.
Datameer
Блог компании, целью которой является сделать анализ больших данных легким и доступным всем желающим. Представленная на сайте библиотека ресурсов предлагает множество полезной информации для новичков и опытных специалистов.
Rocket-Powered Data Science
Блог Керка Борна, главного научного сотрудника по анализу данных в Booz Allen Hamilton. Борн входит в топ-20 влиятельных лиц в мире Big Data по версии Onalytica.
Think Big Analytics
Блог компании, которая предоставляет услуги по обработке больших данных в чистом виде. Множество ресурсов и обучающих материалов на различные темы – от приложений до безопасности больших данных.
Planet Big Data
Агрегатор статей из ведущих блогов по Data Science. Охватывает такие ресурсы, как Simplified Analytics, Revolution Analytics, BrightPlanet и Big Data University.
Shape of Data
Блог Джесса Джонсона – разработчика в Google, который подробно пишет о том, как правила геометрии работают в мире больших данных.
Inside Big Data
Блог компании, возглавляемой Ричом Брюкнером – одним из 20 ведущих авторитетов журнала Forbes. Множество ресурсов на темы больших данных в промышленном масштабе, науки о данных, искусственного интеллекта, машинного обучение и Deep Learning.
IBM Big Data & Analytics Hub
Блог IBM, в котором вы сможете найти различные ресурсы и статей, начиная с аналитики и заканчивая фондами IBM Watson. Рекомендуем обратить внимание на раздел «Big Data & Analytics Heroes», посвященный влиятельным лицам в отрасли.
Книги
На русском
«Теоретический минимум по Big Data. Всё что нужно знать о больших данных» от Су Кеннет и Анналин Ын
Книга для новичков, которая поможет разобраться в основах новой и стремительно развивающейся отрасли обработки больших данных. Подойдет желающим узнать о больших данных и механизмах работы с ними. Каждому алгоритму посвящена отдельная глава, в которой не только объясняются основные принципы работы, но и даются примеры их использования в реальных задачах. Большое количество иллюстраций и простые комментарии позволят легко разобраться в самых сложных аспектах Big Data.
«Большие данные. Принципы и практика построения масштабируемых систем обработки данных в реальном времени» от Натана Марц и Джеймса Уоррена
Книга рассчитана на читателей, стремящихся освоить принципы построения систем больших данных и внедрить их на практике. В этой книге представлены теоретические основы организации систем больших данных и поясняется, каким образом они воплощаются на практике с помощью таких инструментов как Hadoop, Cassandra и Storm. Для чтения этой книги не потребуются знания анализа данных или NoSQL, но полезно иметь представление о традиционных базах данных.
«Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим» от Виктора Майер-Шенбергера
Руководство о больших данных и их использовании в областях кибербезопасности, международного правоприменения, лингвистики и автоматизированного перевода. Книга подойдет для менеджеров и аналитиков, а также для руководителей проектов в сфере Big Data.
«Работа с BigData в облаках. Обработка и хранение данных с примерами» из Microsoft Azure от Александра Сенько
Книга, в которой на реальных примерах рассматриваются секреты обработки больших данных в облаках. Основное внимание уделено решениям Microsoft Azure и AWS на всех этапах работы: от получения подготовленных для обработки в облаке данных, до использования облачных хранилищ и инструментов для анализа. Книга рассчитана на широкую аудиторию и послужит превосходным ресурсом для освоения Azure, Docker и других популярных технологий.
«BIG DATA. Вся технология в одной книге» от Андреаса Вайгенда
Книга одного из ведущих мировых экспертов по будущему Big Data, директора компании Social Data Lab и лектора ИТ-школы Калифорнийского университета Беркли.
Автор рассказывает, как жить в мире полной информационной открытости и технологий монетизации больших данных. Вы узнаете, как с помощью Big Data инновационные компании следят за поведением пользователей, определяют круг интересов человека, управляют репутацией и формируют мнение потребителей.
На английском
«The Ultimate Introduction to Big Data» от Френка Кане
Введение в Big Data, которое обеспечит глубокое понимание приложений для обработки данных в Hadoop и построенных на нем распределенных системах. Онлайн-версия книги также содержит видео и большое количество практических упражнений. Читатели научатся выбирать подходящую технологию хранения данных для приложения, и узнают, как кластеры Hadoop управляются с помощью YARN, Tez, Mesos и подобных технологий. Также они научатся публиковать данные в кластере Hadoop с помощью Kafka, Sqoop и Flume.
«Managing Big Data Workflows for Dummies» от Джо Голдберга и Лилиан Пирсон
Обзор Big Data, включая ключевые технологии и некоторые распространенные отраслевые приложения. Одним из главных затронутых в книге направлений является управление рабочей нагрузкой и процессами автоматизации обработки больших данных на предприятии.
«Big Data at Work: Dispelling the Myths, Uncovering the Opportunities» от Томаса Дэвенпорта
Книга подойдет менеджерам, которые хотят начать использовать большие данные для управления организацией. В ней представлен обзор необходимых для достижения успеха в бизнесе технологий Big Data, а также примеры успешных и неудачных практик обработки данных в разных компаниях.
«Too Big to Ignore: The Business Case for Big Data» от Фила Саймона
Книга для членов управленческой команды, которые хотят узнать о больших данных и прогнозной аналитике. В ней рассматривается множество примеров использования технологий Big Data компаниями и органами власти. Например GPS-трекеры/акселерометры, которые определяют рейтинги безопасности клиентов компании, или как в Google прогнозируют локальные вспышки гриппа по всплескам в поисковых запросах. Автор показывает, что большие данные – не только область потенциальных инноваций, но и важнейший фактор, который бизнесу нужно учитывать, чтобы выжить.
«Hadoop: The Definitive Guide, 4th Edition» от Тома Вайта
4-е издание популярной книги о Big Data для технической аудитории. В ней можно найти инструкции по созданию и обслуживанию распределенных систем параллельной обработки данных с помощью Apache Hadoop (HDFS, MapReduce и YARN). В книге также представлены интересные тематические исследования из сферы здравоохранения и генетики.
Хочу подтянуть знания по математике, но не знаю, с чего начать. Что делать?
Если базовые концепции языка программирования можно достаточно быстро освоить самостоятельно, то с математикой могут возникнуть сложности. Чтобы помочь освоить математический инструментарий, «Библиотека программиста» совместно с преподавателями ВМК МГУ разработала курс по математике для Data Science, на котором вы:
- подготовитесь к сдаче вступительных экзаменов в Школу анализа данных Яндекса;
- углубитесь в математический анализ, линейную алгебру, комбинаторику, теорию вероятностей и математическую статистику;
- узнаете роль чисел, формул и функций в разработке алгоритмов машинного обучения.
- освоите специальную терминологию и сможете читать статьи по Data Science без постоянных обращений к поисковику.
Курс подойдет как начинающим специалистам, так и действующим программистам и аналитикам, которые хотят повысить свой уровень или перейти в новую область.
Комментарии