18 июля 2020

🏢 Как компании превращают данные в деньги: обзор российских практик Data Science

Пишу, перевожу и иллюстрирую IT-статьи. На proglib написал 140 материалов. Увлекаюсь Python, вебом и Data Science. Открыт к диалогу – ссылки на соцсети и мессенджеры: https://matyushkin.github.io/links/ Если понравился стиль изложения, упорядоченный список публикаций — https://github.com/matyushkin/lessons
Кейсы коммерческого использования Data Science на территории России: финансы и ритейл, наука и производство, информационные системы и индустрия развлечений.
🏢 Как компании превращают данные в деньги: обзор российских практик Data Science

Недавно мы составили подробный учебный план для тех, кто хочет освоить Data Science онлайн. Давайте теперь обсудим, куда податься с полученными навыками – как наука о данных используется в российских компаниях.

Прошло не так уж много времени с тех пор, как мы научились хранить и обрабатывать значительные объемы информации. Однако некоторые компании успели накопить колоссальные массивы данных. Это не только IT, но и финансовые организации, фармацевтика, медицинские учреждения и розничные сети. Не меньшую ценность, чем данные о товарах и услугах, представляет статистика пользовательской активности – то, как мы распределяем время в интернете.

Доклад Александра Хайтина: как в бизнесе использовать данные, чего ждать от первого проекта и почему встроить новые технологии в существующий бизнес не так сложно

Понять, как российские компании используют Data Science, можно изучив описания вакансий для дата сайентистов, записи докладов профильных конференций (к месту придётся наша подборка из 30 YouTube-каналов и плейлистов о Data Science), а также кейсы, выставляемые организациями на соревновательных платформах.

Как используется Data Science в российских компаниях

Существует ряд общих задач, в которых наука о данных позволяет повысить доходность компании: определить персональный профиль рекомендаций товаров и услуг, оптимизировать их ценообразование, предсказать наплыв и отток клиентов. Конкретное решение определяется спецификой проекта. Давайте обсудим известные примеры использования Data Science решений на российском рынке.

🏦 Финансы

В финансовой сфере наука о данных там и тут:

  • кредитный скоринг: выдавать или нет кредит клиенту банка в зависимости от кредитной истории и других характеристик;
  • оценка вероятности наступления страховых случаев;
  • верификация пользователей и предотвращение мошеннических транзакций;
  • анализ показателей портфелей заёмщиков;
  • прогноз спроса на наличные в банкоматах (такая модель, например, используется у банка Райффайзен);
  • рекомендация инвестиционных инструментов (акций, облигаций) для создания сбалансированного портфеля (соответствующие алгоритмы используются в Тинькофф.Инвестиции).
Глава исследовательского подразделения в Сбербанке Андрей Черток рассказывает как о классических банковских задачах скоринга и антифрода, так и о более специфических кейсах: использовании ML для HR, чат-ботов, решения задач прогнозирования стоимости жилья.

Активно нанимает специалистов в области машинного обучения и аналитики данных банк ВТБ. Сейчас есть две оплачиваемых стажировки для студентов: IT Юниор (бакалавриат) и в офисе ВТБ Капитал (магистратура).

Особняком стоит применение машинного обучения в страховании. Отделы по работе с данными имеются в АльфаСтраховании, РЕСО-Гарантия, Тинькофф Страхование, Ренессанс страхование. Особенностью является существенно меньшее количество данных – в сравнении с банковскими операциями здесь ниже частота взаимодействий с клиентом, скорость урегулирования вопросов и доступа к данным. Алгоритмы Data Science используются для тарификации Каско, Осаго и классификации медуслуг. Подробнее о круге задач в страховых компаниях рассказано Фрэнком Шихалиевым.

Ещё один источник для знакомства с применением машинного обучения российскими финансовыми компаниями – материалы форума инновационных финансовых технологий Finopolis.

🔍 Поисковые и другие информационные системы

На базе Data Science моделей построены современные поисковые и другие информационные системы. Вы наверняка замечали, как Google и Яндекс показывают таргетированную рекламу на основе того, куда вы заходите, что кликаете и покупаете.

Яндекс использует анализ данных в большинстве своих сервисов: Погоде, Картах, Дзене и т. д. В выкупленных стартапах последовательно внедряются аналитические системы рекомендаций – так это произошло, например, с КиноПоиском и Auto.ru.

В Mail.ru Group специалисты по анализу данных также заняты везде, где требуется обрабатывать текст, картинки, видео, синтезировать и анализировать речь – в почтовых и облачных сервисах, социальных сетях, играх и электронной коммерции. Число таких сотрудников за предыдущие два года в компании выросло почти втрое.

В созданном компанией онлайн-университете GeekBrains есть несколько подразделений, связанных с анализом данных: факультеты Искусственного интеллекта, Аналитики Big Data и Data Engineering. Каждый из факультетов соответствует различным аспектам работы с данными и разным запросам рынка, что указывает на постепенную специализацию профессии.

🛍️ Ритейл

Посмотреть разборы разноплановых задач, решаемых в ритейле, можно в плейлисте докладов с соревнования X5 Retail Hero. Примеры кейсов:

  • выбрать клиентов, которым стоит направить SMS, чтобы не платить за те сообщения, которые не приведут к целевому действию;
  • создать систему рекомендации расстановки товаров на полках так, чтобы максимизировать среднюю стоимость корзины;
  • предсказать, какие товары клиент вероятнее купит в следующий раз;
  • оценить вклад онлайн-рекламы в оффлайн-продажи;
  • спрогнозировать продажи товаров в рамках промоакций (такая модель была реализована в магазинах сети «Пятёрочка»).
В этом докладе Валерий Бабушкин рассказывает три поучительные истории про машинное обучение в офлайн ритейле: прогноз РТО, лояльность пользователей, профиль клиента

Как сообщила руководитель направления Data Science в Ozon Ксения Бокша, их отдел Data Science в 2018–2019 гг. расширился втрое. Аналитику данных онлайн-ритейлер использует в системе персональных рекомендаций, а также при закупках и сборе заказов в логистическом центре.

👨‍🔬️ Наука и инновационные производства

Если вам интересно применения анализа данных в науке, посмотрите первые видео плейлиста конференции Data & Science. В докладах представлены примеры приложений в вопросах интерфейса мозг-компьютер, биоинформатике, фармацевтике, медицине, применении квантовых компьютеров и алгоритмов.

Интерес вызывает и применение анализа данных для образовательной деятельности, например, обработки музейных коллекций. Их оцифровка дает новые возможности для виртуального посещения музеев, создания инструментов дополненной реальности, цифровых образов хрупких экспонатов, реставрационной съёмки. Как с этим дела обстоят в наших музеях, рассказал Владимир Определенов, заместитель директора ГМИИ им. Пушкина. А о том, зачем гуманитариям анализ данных, интересно объяснил главный редактор издания «Системный Блокъ» Даниил Сорокин.

👨‍🔧️ Промышленность

Многие проблемы повышения эффективности крупных производств можно перевести в плоскость анализа изображений:

  • предотвращение хищений: контроль периметра промышленных территорий;
  • предотвращение несчастных случаев: контроль соблюдения зон ответственности, детекция ношения масок, определение аномального поведения;
  • задачи учёта: считывание штрихкодов и буквенно-цифровых кодов для анализа перемещения грузов и других объектов;
  • контроль качества: своевременное обнаружение дефектов, контроль физических параметров;
  • робототехнические решения: локализация мобильных роботов, манипуляционные роботы, планирование траекторий (см. доклады Владислава Громова и Андрея Бокового).

Здесь используются и классические алгоритмы компьютерного зрения, и нейросетевые подходы.

🏢 Как компании превращают данные в деньги: обзор российских практик Data Science

Примеры кейсов, которые задействовали комплексы различных алгоритмических подходов:

  • Предсказание дефектов листовой стали на ранних этапах производства. Такой анализ для одной из металлургических компаний выполнила команда Yandex Data Factory.
  • Химическая промышленность – системы подсказчиков для поддержания максимальной производительности при переходных полуавтоматических режимах. Соответствующий инструмент та же Yandex Data Factory подготовила для оптимизации работы установки газофракционирования.
  • Создание беспилотных автомобилей (см. прекрасные доклады Антона Слесарева и Вячеслава Мурашкина).
Есть ребята, которые оптимизируют производство, различные сервисы прогнозирования аномалий. Более того, в них инвестируют, и это неплохо развивается. В Европе, конечно, гораздо больше, причём это не обязательно Лондон, но и Германия, там довольно сильно развит технологический стек и много заводов, производства, поэтому там базируются многие технологические стартапы. Много Азии: Китай, Япония, большие производства, тяжёлая металлургия. Конкурентов хватает. К счастью, пока нет одного игрока, который делает это сильно лучше, чем остальные, хотя есть интересные компании.

⚖️ Юридические компании

Судебные дела имеют структурированный характер и хорошо поддаются алгоритмам обработки естественного языка.

В этом видео Александр Сарапин рассказывает, как pravo.ru предсказывает результаты арбитражных споров с помощью байесовского классификатора. 

Некоторые юридические документы ещё необходимо преобразовать в текстовую форму. В чём специфика распознавания таких документов, описал Егор Будников в докладе «Как технологии помогают работать с юридическими документами».

☎️ Телекоммуникации

Все операторы Большой четвёрки в той или иной форме имеют собственное подразделение анализа данных. Задачи обычно связаны с персонализацией продуктов и услуг, оптимизацией тарифных линеек, определением оптимальных локаций вышек сотовой связи и салонов сети. Вот как комментирует использование больших данных компания Tele2:

Мы убедились: аналитика больших данных — это не «совершенный мозг», а «сильные очки», улучшающие наше управленческое зрение. Вместе с тем, не для всех задач требуется стопроцентное зрение, а, там, где оно необходимо, важно понимание, что делать с этой более чёткой картинкой, чтобы не растеряться в изобилии фактов.

🎉 Индустрия развлечений

Основная задача в сфере развлечений – дать пользователю интересный контент. То есть нужно либо рекомендовать подходящие материалы, либо... их создать.

Первая задача решается традиционно через создание рекомендательной системы с персонализированными профилем по логам пользовательской активности – всему тому, что пользователь смотрел, слушал, читал, лайкал и сохранял в закладки. Например, аналитики рекомендательной системы VK занимаются созданием моделей, предсказывающих интересных пользователю авторов, пабликов и групп, обеспечивающих новизну и разнообразие рекомендаций. Другой круг задач связан с поиском друзей на основе социального графа.

Второй подход – создание контента под интересы пользователя и разработка продвинутых инструментов, которые тот может использовать в процессе создания собственного контента, например, «умных» масок и фильтров.

В кинопроизводстве технологии, родственные технологии дипфейк уже помогают сократить время создания фильма, в частности его озвучку. В дизайне нейросетевые модели используются для создания оригинальных логотипов.

Чем Data Science полезен для бизнеса?

📈 Рост доходности. Как вы уже поняли, один из наиболее распространенных сегодня способов применения науки о данных – создание персонализированных рекомендаций. Потребитель получает только необходимую информацию – повышается мотивация и уровень лояльности, человек чаще рекомендует сервис знакомым, реклама оказывается более эффективной и т. д.

📉 Сокращение издержек. Можно более рационально использовать склады, контролировать остатки, лучше планировать закупки, предсказывать приток и отток клиентов, цены грузоперевозок. Привлечение экспертов требует дополнительных расходов, но в итоге их работа позволяет многократно снизить общие расходы компании. При правильном подходе вложения в машинное обучение окупают себя и увеличивают спрос на продукты.

Большее время взаимодействия с клиентом. Чат-боты сейчас встречаются во многих мобильных и веб-приложениях. Уровень решений совершенно различный: не только назойливо всплывающие окошки, но и продвинутые интеллектуальные системы вроде Алисы, помогающие решать сложные задачи: заказать такси, забронировать гостиницу, узнать погоду или решить проблему клиента, который звонил в колл-центр.

Благодаря прогрессу машинного обучения в обработке естественного языка, распознавании и синтезе речи, стало возможно автоматизировать голосовые взаимодействия. В ряде случаев оператора специализированного колл-центра уже сегодня можно заменить роботизированной системой – особенно в областях, где общение фактически ограничено скриптами. Сергей Марков руководитель ИТ-подразделения компании «АБК» увлекательно рассказывает, почему замена оператора колл-центра искусственным интеллектом – дело совсем непростое.

Как рассказал Ведомостям представитель «Тинькофф», автоматизированный чат-бот, общающийся с клиентами, помогает экономить до 50 млн руб. в месяц: бот самостоятельно обслуживает 30% обращений клиентов в чате и помогает операторам с остальными 70% запросов.

🤖 Предсказуемость. Компьютерные алгоритмы работают в заданных рамках. Их поведение предсказуемо, они не опоздают на встречу, им не нужно отдыхать, а чётко сформулированные рутинные задачи такие системы часто решают лучше, чем люди.

Так много задач! Достаточно ли на рынке специалистов?

Квалифицированных специалистов по анализу данных не хватает. Некоторые компании даже растят аналитиков самостоятельно. Долгое время самым известным примером была Школа анализа данных, запущенная в Яндексе ещё в далёком 2007 г. Однако пройти отбор в неё и учиться крайне сложно. Школа выпускает высококвалифицированных специалистов, но их количество мало и не закрывает потребности рынка.

Другие компании стараются переобучить собственных сотрудников. В августе 2019 г. в Сбербанке стартовала программа переподготовки сотрудников с высшим естественно-научным, техническим и математическим образованием. «Вымпелком» запустил проект «Лаборатория Big Data», которая готовит магистров в области программирования и анализа больших данных вместе с тремя крупными техническими вузами в Новосибирске. Ozon открыл собственную школу Ozon Masters, в которой готовят специалистов по Data Science и Data Engineering.

***

Хочу подтянуть знания по математике, но не знаю, с чего начать. Что делать?

Если базовые концепции языка программирования можно достаточно быстро освоить самостоятельно, то с математикой могут возникнуть сложности. Чтобы помочь освоить математический инструментарий, «Библиотека программиста» совместно с преподавателями ВМК МГУ разработала курс по математике для Data Science, на котором вы:

  • подготовитесь к сдаче вступительных экзаменов в Школу анализа данных Яндекса;
  • углубитесь в математический анализ, линейную алгебру, комбинаторику, теорию вероятностей и математическую статистику;
  • узнаете роль чисел, формул и функций в разработке алгоритмов машинного обучения.
  • освоите специальную терминологию и сможете читать статьи по Data Science без постоянных обращений к поисковику.

Курс подойдет как начинающим специалистам, так и действующим программистам и аналитикам, которые хотят повысить свой уровень или перейти в новую область.

Комментарии

ВАКАНСИИ

Добавить вакансию
Fullstack разработчик .NET
по итогам собеседования
Go Team Lead
по итогам собеседования

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ