Бесплатный видеокурс «Язык R для пользователей Excel»

Курс по языку R для пользователей Microsoft Excel: 12 уроков об архитектуре tidyverse и входящих в неё пакетах: readr, vroom, dplyr, tidyr и ggplot2.

Статья подготовлена читателем Библиотеки программиста. Не стесняйтесь присылать материалы для публикации по кнопке + в верхней панели – тексты проходят редактуру, мы поможем сделать статью понятной для широкой аудитории.

***

В связи с карантином многие разработчики львиную долю времени проводят дома. Я решил потратить освободившееся время на проекты, начатые несколько месяцев назад, в том числе видеокурс «Язык R для пользователей Excel». Этим курсом я хотел снизить порог вхождения в R и немного восполнить существующий дефицит обучающих материалов по данной теме на русском языке.

О курсе

Обучение построено вокруг архитектуры tidyverse и входящих в неё пакетов: readr, vroom, dplyr, tidyr и ggplot2. Конечно, в R есть и другие хорошие пакеты, выполняющие те же функции, но синтаксис tidyverse интуитивно понятен – его легко читать даже неподготовленному пользователю. Курс проведёт вас от загрузки данных в среду R до визуализации готового результата.

Почему именно R, а не Python? R – функциональный язык, поэтому пользователям Excel обычно на него перейти легче. На данный момент запланировано 12 видеоуроков длительностью от 5 до 20 минут каждый. Уроки будут открываться постепенно. Каждый понедельник я буду открывать доступ к новому уроку у себя на YouTube-канале в отдельном плейлисте.

Курс ориентирован на тех, кто активно использует Microsoft Excel и там же реализует всю работу с данными. Навыков программирования для прохождения курса не требуется, курс ориентирован на начинающих. Начиная с четвёртого урока может материал может быть интересен и для активных пользователей R – подробно рассматриваются пакетов dplyr и tidyr.

Программа курса

Ниже я приведу программу курса с подробным описанием каждого урока.

Урок 1: Установка языка R и среды разработки RStudio: На вступительном уроке мы скачаем и установим необходимое программное обеспечение, обсудим возможности и интерфейс среды разработки RStudio.

Урок 2. Основные структуры данных в R. В этом уроке подробно разберём векторы, датафреймы и списки. Научимся их создавать и обращаться к их элементам.

Урок 3. Чтение данных из TSV, CSV, Excel файлов и Google Таблиц. В ходе урока я буду использовать пакеты vroom, readxl, googlesheets4 для загрузки данных в среду R из csv, tsv, Excel файлов и Google-таблиц.

Урок 4. Фильтрация строк, выбор и переименование столбцов, пайпланы в R. Этот урок посвящён пакету dplyr. Разберёмся, как фильтровать датафреймы, выбирать нужные столбцы и переименовывать их. Узнаем, что такое пайпланы и как они помогают делать код на R более читаемым.

Урок 5. Добавление вычисляемых столбцов в таблицу на языке R (20 апреля 2020). Этот и следующий уроки будут постепенно открываться каждый понедельник. В этом видео мы продолжим знакомство с библиотекой tidyverse и пакетом dplyr. Разберём семейство функций mutate() и научимся добавлять в таблицу новые вычисляемые столбцы.

Урок 6. Группировка и агрегация данных на языке R (27 апреля 2020). Урок посвящён одной из основных операций анализа данных – группировке и агрегации. В ходе урока будем использовать пакет dplyr и функции group_by() и summarise(). Рассмотрим семейство функций summarise(): summarise(), summarise_if() и summarise_at().

Урок 7. Вертикальное и горизонтальное объединение таблиц на языке R (4 мая 2020). Урок поможет разобраться с операциями вертикального и горизонтального объединения таблиц. Вертикальное объединение является аналогом операции UNION в языке запросов SQL. Горизонтальное объединение пользователям Excel более известно благодаря функции ВПР, в SQL такие операции осуществляются оператором JOIN. Во время урока мы решим практическую задачу, применив пакеты dplyr, readxl, tidyr и stringr. Основные функции объединения таблиц, которые мы рассмотрим:

  • bind_rows() – вертикальное объединение,
  • left_join() – горизонтальное объединение,
  • semi_join() – включающее объединение,
  • anti_join() – исключающее объединение.

Урок 8. Оконные функции в R (11 мая 2020). Оконные функции по смыслу похожи на агрегирующие, они также принимают на вход массив значений и проводят над ними арифметические операции, но в исходящем результате не изменяют количество строк. В этом уроке мы продолжим изучать пакет dplyr и функции group_by(), mutate(), а также новые cumsum(), lag(), lead() и arrange().

Урок 9. Вращение таблиц или аналог сводных таблиц в R (18 мая 2020). Большинство пользователей Excel используют сводные таблицы. Это удобный инструмент, с помощью которого вы можете в считаные секунды превратить массив сырых данных в читабельные отчёты. Мы разберёмся с тем, как вращать таблицы в R, и преобразовывать их из «широкого» формата в «длинный» и наоборот. Большая часть урока посвящена пакету tidyr и функциям pivot_longer() и pivot_wider().

Урок 10: Загрузка JSON-файлов в R и преобразование списков в таблицы (25 мая 2020). JSON и XML за счёт своей компактности являются чрезвычайно популярными форматами хранения и обмена информацией. Но анализировать данные, представленные в таких форматах, сложно. Поэтому перед анализом их необходимо привести к табличному виду. Именно этому мы и научимся в данном видео. Урок посвящён пакету tidyr, входящему в ядро библиотеки tidyverse, и функциям unnest_longer(), unnest_wider() и hoist().

Урок 11: Быстрое построение графиков с помощью функции qplot() (1 июня 2020). Пакет ggplot2 является одним из наиболее популярных средств визуализации данных не только в R. В этом уроке мы научимся построению простейших графиков с помощью функции qplot() и разберём все её аргументы.

Урок 12: Построение графиков слой за слоем с помощью пакета ggplot2 (8 июня 2020). В уроке продемонстрирована вся мощь пакета ggplot2 и заложенной в него грамматики построения графиков. Мы разберём основные геометрии которые присутствуют в пакете и научимся накладывать слои для построения графика.

Заключение

Курс не является исчерпывающим руководством по анализу данных с помощью языка R, но поможет разобраться с необходимыми для этого приёмами. Я старался подойти к формированию программы курса максимально лаконично, выделив самую необходимую информацию, которая понадобится для того, чтобы сделать первые шаги в изучении такого мощного инструмента анализа данных, как язык R.

Пока программа курса рассчитана на 12 недель. Каждую неделю, по понедельникам я буду открывать доступ к новым урокам. Соответствующие ресурсы вы найдёте по следующим ссылкам:

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ

matyushkin
07 апреля 2020

ТОП-15 книг по Python: от новичка до профессионала

Книги по Python (и связанным с ним специальным темам) на русском языке. Рас...
admin
14 июля 2017

Пишем свою нейросеть: пошаговое руководство

Отличный гайд про нейросеть от теории к практике. Вы узнаете из каких элеме...