Чем занимается BI-аналитик?
BI-аналитик оперирует двумя источниками информации: получаемыми с рынка внешними данными и внутренними данными компании, в которой он работает.
Порции информации из внутренних и внешних источников поступают регулярно, то есть они находятся в постоянном движении на своеобразных линиях ускользания от BI-аналитика. По аналогии с диджеем, сводящим дорожки, BI-аналитик выстраивает ускользающие линии информации и затем фиксирует их таким образом, чтобы создать картину, конфигурацию, пригодную для интерпретации, бизнес-анализа и принятия решений. В итоге цель BI-аналитика – открыть выгодные для бизнеса перспективы.
В обязанности BI-аналитика входит:
- сбор, хранение и распределение данных;
- подготовка аналитических отчетов;
- автоматизация рутинных операций при подготовке отчетов;
- визуализация данных на дашбордах;
- построение и проверка гипотез;
- сбор и анализ требований заказчиков.
Инструменты BI-аналитика
SQL-запросы
Бизнес-процессы описываются тысячами показателей. Например, для анализа продаж детской игрушки понадобятся сведения о географическом положении магазина, с какими товарами и в какой день недели покупалась игрушка, на какой полке располагалась игрушка, как производилась оплата – по кредитной, дебетовой карте или наличными – и так далее. Детализация приводит к образованию больших массивов данных, которые нужно правильно структурировать для дальнейшего анализа. Обычно данные хранятся в базах данных, поэтому BI-аналитик должен уметь писать SQL-запросы на разных диалектах.
Технология OLAP
Для создания сложных многотабличных запросов и быстрого получения результата – по сравнению с простой двумерной таблицей – применяют OLAP (англ. online analytical processing, интерактивная аналитическая обработка), в котором массив данных структурируется в виде многомерной таблицы, OLAP-куба (рис. 1). Оси такого куба – анализируемые показатели, а на пересечении осей – данные.
Метод ETL
Хорошо, если в таблицах нет пропущенных значений, дубликатов, аномалий и сам массив данных самодостаточен – по нему можно решить задачу анализа без обогащения массива данными из внутренних или внешних источников. Так бывает не всегда. Поэтому для подготовки данных к анализу BI-аналитики применяют шаг Transform (очистка данных) из метода предобработки ETL (англ. Extract, Transform, Load – «извлечение, преобразование, загрузка»):
- получение данных;
- преобразование, очистка данных;
- и загрузка их в хранилище или аналитическое приложение.
Языки Python и R
Из языков программирования приоритет отдается Python и R. Язык R изначально разработан для анализа и статистической обработки данных. В Python для работы с данными используют библиотеку pandas, а для визуализации множество других библиотек: matplotlib, plotly, seaborn, bokeh, altair, ipyleaflet, folium.
Подробнее о работе с Pandas и визуализации данных читайте в наших статьях:
- Инструменты дата-журналиста #1: Jupyter Notebook и библиотека Pandas
- Инструменты дата-журналиста #2: веб-скрапинг, парсинг и визуализация данных
- Работа с геоданными в Python и Jupyter
Отображение результатов в визуальном формате – графики, диаграммы или на карте – дает представление о наиболее важных показателях, которые не всплывают в контексте таблицы. Информации много, поэтому вручную писать код для каждого графика занимает много времени. Чтобы клепать отчеты в промышленных масштабах BI-аналитик пользуется платформами с функциями хранилища данных, автоматизированной отчетности и построения дашбордов.
Один из главных инструментов аналитика – специальные BI-платформы.
Популярные BI-платформы
На некоторых платформах удобнее рисовать графики, на других сводить данные, а у третьих крутая кривая обучения, чтобы полностью использовать их возможности. Учитывая, что платформы в 9/10 случаев платные, нужно определиться, какой функционал нужен. В вакансиях на Хедхантере чаще всего фигурируют Tableau и Power BI.
Microsoft Power BI
powerbi.microsoft.com | Цена: Power Desktop распространяется бесплатно, Pro-версия стоит от 625 ₽/мес.
Power BI Desktop – часть набора продуктов Power BI. Desktop-версия устанавливается на локальный компьютер и позволяет подключать, преобразовывать и визуализировать данные. Power BI Pro – продвинутая версия с большим функционалом.
Функциональность Pro-версии:
- отчеты в реальном времени;
- предсказательная аналитика;
- расширенная аналитика на основе искусственного интеллекта (ИИ);
- создание моделей машинного обучения;
- очистка данных с помощью Azure Data Lake;
- больше инструментов интеграции данных по сравнению с платформой Tableau;
- интерактивные отчеты;
- бесшовная интеграция с технологиями Microsoft Office.
Tableau
tableau.com | Цена: от 70 $/мес.
C 2003 г. Tableau помогает не техническим специалистам создавать визуальную аналитику и интерактивные графики. Система имеет интуитивный и не загроможденный пользовательский интерфейс.
Функциональность:
- анализ в режиме реального времени;
- drag-and-drop конструктор в дашбордах;
- единый синтаксис для всех задач;
- обработка естественного языка (NLP);
- удобная работа с геоданным по сравнению с Power BI.
Qlik
qlik.com | Цена: 30 $/мес.
Qlik – дает доступ к облачной аналитике с низким порогом вхождения и прозрачной ценовой политикой в отличие от Tableau (pdf, англ., шестая страница).
Функциональность:
- дашборды;
- геоаналитика;
- аналитика, основанная на поиске и языковых запросах;
- заказная разработка и встраиваемая аналитика;
- мобильная аналитика;
- автоматизация хранилищ данных;
- экспорт данных в Tableau, Power BI и другие аналитические системы.
Oracle Analytics Cloud
oracle.com/business-analytics | Цена: от 16 $/мес.
Oracle Analytics Cloud предлагает комплексную бизнес-аналитику, формирование отчетности, машинное обучение из коробки и возможности визуализации данных.
Функциональность:
- расширенная аналитика за счет средств ИИ и машинного обучения;
- обработка естественного языка (NLP);
- аналитические панели, дашборды;
- мобильные решения;
- предсказательная аналитика;
- бесплатно: две базы данных, хранилище на 100 Гб, две виртуальные машины с 1 Гб ОЗУ.
Metabase
metabase.com | Цена: бесплатно на своем хостинге или от 85 $/мес. за облако.
Metabase – инструмент бизнес-аналитики с открытым исходным кодом. Он не требует знания SQL и имеет приятный интерфейс, позволяющий создавать аналитические графики всего несколькими щелчками мыши.
Функциональность:
- установка за 5 минут;
- создание запросов без знания SQL;
- отправление данных по расписанию на электронную почту или в Slack
- просмотр данных с помощью бота MetaBot в Slack;
- работа с геоданными;
- оповещение об изменениях.
Литература
- Визуализируйте это: Руководство FlowingData по дизайну, визуализации и статистике – Натан Яу (англ.);
- Визуализация данных (практическое руководство) – Киран Хили (англ.);
- Основы визуализации данных: руководство по созданию информативных и убедительных диаграмм – Клаус О. Вильке (англ.);
- Super Graphic. Вселенная комиксов сквозь схемы и диаграммы – Леонг Тим;
- Искусство цвета – Йоханнес Иттен;
- Наглядная математическая статистика. Учебное пособие – Лагутин М. Б.
Интернет-ресурсы и YouTube-каналы
- Каталог Визуализации Данных – сборник диаграмм и графиков;
- Vitamin Business Intelligence – BI для начинающих: управление, анализ и визуализация данных (англ.);
- Business Intelligence, Big Data и человеческое чутье – на канале рассказывают о видах BI, технологических средствах реализации и подводных камнях;
- Создание дашборда в Power BI – полное руководство по созданию дашборда;
- Tableau. Основы. Создаем дашборд – инструкция по сборке простого дашборда;
- Вебинары и уроки по Qlik – 42 видео, плейлист регулярно обновляется: первое видео датируется 2016 г., последнее – 2021 г.;
- Канал Oracle Analytics – официальный канал Oracle Analytics, в котором рассказывают о новых возможностях системы и показывают как ими пользоваться (англ.);
- Туториал по Metabase – здесь вы узнаете, как установить систему и как с ней работать.
Резюме начинающего BI-аналитика
Зарплата: от 60 тыс. руб. (актуально на момент публикации статьи в г. Москва).
Требования:
- навык работы с базами данных и написания SQL-запросов средней сложности;
- знание аналитической системы Power BI / Tableau;
- умение разрабатывать ETL-скрипты для очистки, обработки и выгрузки данных;
- знание программ MS Office на уровне уверенного пользователя;
- аналитический склад ума;
- английский язык на уровне чтения документации.
Хочу научиться программировать с нуля, но не знаю, с чего начать. Что делать?
Можно учиться самостоятельно (долго) или пойти на курсы с преподавателями (быстро). Плюс нужно учитывать, что джунов много, конкуренция выше и работодатели повышают порог вхождения при найме на работу. Чтобы получить актуальные знания, мы в proglib.academy запустили курсы:
- Основы программирования на Python.
- Профессия Python-разработчик.
- Алгоритмы и структуры данных.
- Математика для Data Science.
- Профессия Data Science.
- Frontend Basic: принцип работы современного веба.
- Профессия Фронтенд-разработчик.
- Обработка естественного языка. Полный курс.
На подходе еще больше 10 курсов для взрослых и детей.
Комментарии