yuliianikolaenko 30 сентября 2020

👨🏼‍💻💼 5 возможных причин провала проектов в Data Science

Рассказываем о самых частых проблемах в реализации проектов с большими данными, которые могут привести к провалу.
👨🏼‍💻💼 5 возможных причин провала проектов в Data Science

В этой статье мы описали 5 главных причин, почему проект может потерпеть крах и указали возможные пути решения потенциальных проблем. Если вы не знакомы с Data Science и хотите овладеть профессией с нуля, рекомендуем прочесть статью «Научиться Data Science онлайн».

Неопределенные цели и ожидания

<a href="https://www.learnupon.com/blog/what-is-customer-training/" target="_blank" rel="noopener noreferrer nofollow">Источник</a>
Источник
Почему проекты с большими данными терпят неудачу? Во-первых многим руководителям не хватает видения и предприятия путаются в больших данных. Большинство думает о числах или черных ящиках NLP, которые делают простой интеллектуальный анализ текста и другие виды распознавания образов.
Alan Morrison, ex-cтарший менеджер, Центр технологий и инноваций PwC Источник

Неверное соотношение ожиданий и реальности может негативно повлиять на успех, поэтому стоит заранее определить четкие цели проекта и ожидания от него. Оцените имеющиеся данные, на основе которых вам предстоит построить модели машинного обучения. Какие потенциальные проблемы с ними вы заметили? Обсудите эти проблемы и их решение с руководителями проекта, таким образом вы сможете избежать провала, сэкономите время и силы команды.

🤖 Библиотека data scientist’а
Больше полезных материалов вы найдете на нашем телеграм-канале «Библиотека Data scientist’а»
🤖🎓 Библиотека Data Science для собеса
Подтянуть свои знания по DS вы можете на нашем телеграм-канале «Библиотека Data Science для собеса»
🤖🧩 Библиотека задач по Data Science
Интересные задачи по DS для практики можно найти на нашем телеграм-канале «Библиотека задач по Data Science»

Проблемы с данными

<a href="https://www.elmhurst.edu/blog/future-of-data-science/" target="_blank" rel="noopener noreferrer nofollow">Источник</a>
Источник

Использование точных данных имеет основополагающее значение для успеха проекта, а плохие данные являются наиболее недооцененной причиной неудачи. Зачастую компании не тратят достаточного времени на их очистку, хотя тщательная подготовка данных является одним из самых эффективных методов экономии времени команды в будущем. Работа с чистыми, структурированными данными ускоряет все последующие шаги реализации проекта.

Если вы соберете вместе большой объем информации, получите data dump. Я называю это мусорной свалкой. Мусорки – не самое лучшее место для поиска решений. Я всегда говорю клиентам, что сначала нужно решить какую-то отдельную бизнес-задачу… Затем посмотреть на качество доступных данных и устранить потенциальные проблемы.
<a href="https://magenticians.com/magento-memes/amp/" target="_blank" rel="noopener noreferrer nofollow">Источник</a>
Источник

Многие специалисты считают предоставляемые им данные неполными и/или противоречивыми. Если команда проекта создает модель машинного обучения на плохих данных, она получит неверные результаты. Даже если алгоритм работает со стопроцентной точностью, но вся классификация данных неверна, то и предсказания будут некорректными. Ошибки приведут к ложной интерпретации результатов и потопят весь проект. Это также может быть причиной отказа от поддержки будущих инициатив по цифровой трансформации.

Другая причина провала заключается в том, что базами данных управляют только на уровне организации. Это приводит к избыточности и плохой управляемости. Проекты в Data Science часто заходят в тупик и закрываются именно из-за проблем, связанных с некачественными данными, которые не идентифицированы и не исправлены заранее.

Отсутствие понимания бизнес-задачи

<a href="https://www.igh.com/category/events/announcement-header/analytics/" target="_blank" rel="noopener noreferrer nofollow">Источник</a>
Источник

Большинство инициатив не приносят пользы бизнесу, потому что они решают совсем другую проблему. Тем не менее, многие организации пытаются использовать машинное обучение, прогнозную аналитику или любые другие возможности Data Science без четкой цели. Основная проблема с этими пилотами: они слишком ориентированы на технологии, совсем как проекты научной ярмарки. В конечном итоге это не приносит бизнесу пользы.

Проект должен начинаться с бизнес-вопроса, а не фокусироваться на данных или технологиях. Специалисты по обработке данных и руководители должны проводить время вместе, формулируя именно тот вопрос, который они хотят решить. Совместный мозговой штурм поможет им определить будущие препятствия для достижения бизнес-целей. Обсудите и расставьте приоритеты проекта по трем факторам:

  1. Влияние на бизнес.
  2. Срочность.
  3. Осуществимость.

Далее выберите наиболее важные бизнес-задачи и разработайте решение с помощью технологий Data Science.

Некорректность выбора модели машинного обучения

<a href="https://blog.deiser.com/en/how-to-build-real-time-confluence-reports-from-jira-project-data" target="_blank" rel="noopener noreferrer nofollow">Источник</a>
Источник

Одна из ошибок руководителей и специалистов по обработке данных заключается в убежденности, будто модели машинного обучения должны быть сложными. На самом деле чем проще модель и ее интеграция, тем легче команде разработчиков будет поддерживать алгоритм в будущем. При построении модели отталкивайтесь от желаемых результатов и поставленных задач.

Неэффективная работа команды Data Science

<a href="https://cssh.northeastern.edu/bari/projects/" target="_blank" rel="noopener noreferrer nofollow">Источник</a>
Источник

Коммуникация

Неспособность понять реальную бизнес-проблему часто происходит из-за плохой коммуникации между командой Data Scientist и заинтересованными сторонами из бизнеса. Одна из проблем, с которыми сталкиваются консультанты Data Science заключается в неспособности команды объяснить ценность проекта. Для этого нужны… данные! Предоставьте руководителям показатели сэкономленных ресурсов, полученные конкурентные преимущества и т. д. Если намерения проекта не согласованы с целями руководителей, он обречен на провал.

Навыки команды

Если команда не имеет навыков работы с Hadoop, зачем вам создавать кластеры? В первую очередь оцените набор навыков вашей команды. Не включайте в задачи проекта навыки, которыми команда не владеет и на освоение которых потребуется много времени. Это значительно замедлит работу команды, потому стоит отталкиваться от существующих навыков и использовать их для решения поставленных задач.

Члены команды

Отсутствие опытного лидера проекта является одной из главных причин его потенциального провала. Data Science все еще относительно новая область, но лидер должен иметь соответствующий опыт командной работы. Успех проекта невозможен без руководителя, который сможет правильно организовать работу команды по интеграции технологий Data Science в бизнес.

Успешная модель команды состоит из:

  1. Людей с высокими техническими знаниями в области Data Science и Big Data;
  2. Экспертов в предметной области, которые могут предоставить информацию в нужный момент;
  3. Разбирающихся в бизнесе людей, которые сумеют превратить идею в имеющий практическую пользу проект, а также обладают навыками презентации и storytelling;
  4. Подрядчиков и консультантов, которые должны привнести в команду другой подход и опыт.

Заключение

Существует множество иных причин, почему проекты в сфере Data Science продолжают терпеть неудачу. Эта область знаний появилась относительно недавно и все еще требует оптимизации как научных, так и рабочих стратегий. Тем не менее, если вы возьмете ситуацию под контроль и попробуете избежать указанных в статье ошибок, вероятность успеха существенно увеличится.

***

Хочу подтянуть знания по математике, но не знаю, с чего начать. Что делать?

Если базовые концепции языка программирования можно достаточно быстро освоить самостоятельно, то с математикой могут возникнуть сложности. Чтобы помочь освоить математический инструментарий, «Библиотека программиста» совместно с преподавателями ВМК МГУ разработала курс по математике для Data Science, на котором вы:

  • подготовитесь к сдаче вступительных экзаменов в Школу анализа данных Яндекса;
  • углубитесь в математический анализ, линейную алгебру, комбинаторику, теорию вероятностей и математическую статистику;
  • узнаете роль чисел, формул и функций в разработке алгоритмов машинного обучения.
  • освоите специальную терминологию и сможете читать статьи по Data Science без постоянных обращений к поисковику.

Курс подойдет как начинающим специалистам, так и действующим программистам и аналитикам, которые хотят повысить свой уровень или перейти в новую область.

Источники

Комментарии

ВАКАНСИИ

Добавить вакансию
Разработчик C++
Москва, по итогам собеседования

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ