5 видеороликов о пакете dplyr языка R
dplyr – популярный пакет для обработки данных в языке R. Небольшой плейлист из 10-15-минутных роликов познакомит с основным функциями пакета dplyr с учётом последних нововведений версии 1.0.0.
Статья подготовлена читателем Библиотеки программиста – Алексеем Селезнёвым, руководителем отдела аналитики в Netpeak. Не стесняйтесь присылать материалы для публикации по кнопке +
в верхней панели – тексты проходят редактуру, мы поможем сделать статью понятной для широкой аудитории.
Установка dplyr 1.0.0
Перед началом работы необходимо обновить или установить пакет dplyr. Делается это стандартной командой install.packages('dplyr')
.
Обновлённая функция summarise()
Функция summarise()
используется для агрегации данных. Ранее было необходимо прописать агрегирующие функции под каждый столбец либо использовать summarise_at()
, summarise_if()
, summarise_all()
. В версии dplyr 1.0.0 функция summarise()
была значительно доработана – теперь с её помощью можно получить фрейм произвольной размерности.
Этот и следующие обзоры подготовлены по серии статей создателя пакета – Хэдли Викхэма. Например, данное видео снято по материалам публикации dplyr 1.0.0: new summarise() features
Функции select(), rename_with(), relocate()
Функция select()
давно присутствует в пакете dplyr. Вместе с ней ранее использовались select_if()
и select_at()
. Теперь все три функции объединены внутри select()
. Аналогичным образом rename_with()
пришла на смену функциям rename()
, rename_at()
и rename_at()
. Наконец, relocate()
– это новая функция, позволяющая менять положение столбцов датафрейма:
Источник: dplyr 1.0.0: select, rename, relocate.
Функция across()
Ещё одна новая функция – across()
– позволяет применять какую-либо функцию одновременно к ряду столбцов датафрейма:
Источник: dplyr 1.0.0: working across columns.
Перебор строк: функция rowwise()
Функция rowwise()
– новая альтернатива циклам и функциям из пакета purrr
. Функция используется для строчного перебора датафрейма:
Источник: dplyr 1.0.0: working within rows
Операции INSERT, UPDATE, DELETE
Перед самым релизом в dplyr 1.0.0 добавили семейство функций rows_*()
, с помощью которых в R можно выполнять SQL-операции INSERT
, UPDATE
, DELETE
.
Заключение
Номер версии 1.0.0 говорит, что синтаксис dplyr в дальнейшем не будет значительно меняться – даже если появятся новые функции и аргументы, написанный код будет иметь обратную совместимость.
Если представленные обзоры были полезны, можно подписаться на YouTube-канал автора или канал Telegram – основная часть контента посвящена урокам по языку R.