ds_fighter 11 октября 2022

📊🙊 SkyNet придет не скоро: 10 вещей в Data Science, о которых вам никто не расскажет

Специалисты обработки данных часто бывают удивлены, когда попадают в рабочую среду Data Science: существует большой разрыв между ожиданиями и реальностью. В этой статье мы поделимся 10 фактами о науке о данных, которые не подвергаются широкой огласке.
📊🙊 SkyNet придет не скоро: 10 вещей в Data Science, о которых вам никто не расскажет
Данная статья является переводом. Ссылка на оригинал.

1. Data Scientist вряд ли будет использовать глубокое обучение в своей работе

Несомненно, глубокое обучение пользуется особой популярностью в мире Data Science. Лишь немногие Data Scientists имеют ресурсы для таких затратных проектов. Сотни тысяч (и даже миллионы) долларов необходимы для ввода, хранения и разметки данных. После этого огромное количество аппаратного обеспечения и параметрические эксперименты потребуют больших затрат на проведение исследования. Соедините это со склонностью глубокого обучения к переобучению и вы поймете, почему большинство компаний предпочитает линейную или логистическую регрессию.

2. SQL — самая ценная технология, которую вам надо изучить

📊🙊 SkyNet придет не скоро: 10 вещей в Data Science, о которых вам никто не расскажет

SQL, которому около 50 лет, до сих пор остается востребованным и используется для запросов в сотнях платформ баз данных. Почему? Потому что он просто работает.

Когда платформы Big Data, такие как NoSql и Apache Spark, вышли на сцену в 2015 году, было много ожиданий, что они заменят SQL. Иронично, но в них были, наоборот, добавлены SQL-интерфейсы по требованиям пользователей. SQL продолжает оставаться языком данных и не потерял свою актуальность в эпоху бума Big Data. Его логический синтаксис позволяет получать краткие и понятные инструкции по извлечению и манипулированию данными.

Многие входят в область Data Science, ожидая использовать машинное обучение и различные статистические инструменты. В реальности же они тратят 99% процентов усилий на работу по извлечению, структурированию и сохранению сырых данных. Поэтому, если не знаешь SQL, тяжело быть продуктивным.

Конечно, есть Data Scientists , которые не знают SQL, но они зависят от тех, кто извлекает им данные. Они также усложняют свою работу, выполняя через Python/Pandas задачи, которые могут быть легко решены в несколько строк на SQL или в которых используется такое огромное количество данных, что их лучше сделать на сервере с использованием SQL. Поэтому неудивительно, что таких специалистов немного.

Если вы хотите перейти в Data Science, первым делом изучите SQL. Ваши модели и анализ не будут иметь ценности, если вы не сможете достать необходимые данные.

3. Когда у вас есть молоток, всё начинает казаться гвоздями

📊🙊 SkyNet придет не скоро: 10 вещей в Data Science, о которых вам никто не расскажет

Data science наполнена профессионалами, пытающимися решить всё с помощью машинного обучения, вместо того чтобы начать с самой задачи и поиска правильного решения. Из-за этого Data Scientists упускают из виду мощные и эффективные средства просто потому, что эти алгоритмы старые, забытые и это не машинное обучение.

Отложите на мгновение машинное обучение! Изучите регулярные выражения, эвристику, алгоритмы поиска, системы на правилах, линейное программирование, оптимизацию и другие концепции старой школы, которые выдержали испытание временем и способны решать задачи, которые машинное обучение решить не может. Можно заметить, что самые эффективные решения часто не попадают в СМИ. Есть много анекдотов, в которых команда Data Science крупной технологической компании пыталась использовать обработку естественного языка, решая задачу шаблонов текстов, и затем недавно нанятый программист «старой закалки» решает эту задачу с помощью регулярных выражений в течение часа. Слишком часто специалисты по данным принимают неоправданные решения.

4. Работа Data Scientist напрямую связана с выполнением задач IT-сектора

Многие специалисты Data Science разочаровываются, когда они нанимаются для статистики и машинного обучения, но вместо этого становятся штатными экспертами IT. Явление не новое и предшествует самой науке о данных.

Теневые информационные технологии (теневое IT) описывает работников, которые создают системы вне отдела IT. Это включает в себя базы данных, дашборды, скрипты, код. Раньше подобная практика в организациях не приветствовалась, так как не регулировалась и выходила за сферу контроля IT-отдела. Однако одно из преимуществ движения data science заключается в том, что она сделала теневое IT более приемлемым, как необходимость для инноваций.

Вместо того чтобы разочаровываться, Data Scientist может получить знания в области SQL, программирования, облачных технологий, веб-разработки и других полезных технологий. Это поможет упростить его работу, сделать ее более доступной для других и открывает новые возможности для статистических и ML-моделей.

Больше полезных материалов вы найдете на нашем телеграм-канале «Библиотека data scientist’а»

5. Компьютеры и машинное обучение не могут находить смещение в данных

Компьютеры не имеют никакого понимания, какие данные захватываются, а какие нет. Для компьютера данные — это просто числа. Поэтому качественный анализ данных так же важен, как и эмпирический.

Мы не поклонники data-driven (ориентированный на данные), популярной в последнее время. Она предполагает, что данные – это уже источник истины, а не ключ к ней. Она игнорирует тот факт, что данные не отражают реальность полностью, как и камера не способна запечатлеть всё, что находится за пределом объектива. Это то, что может привести к смещению, неполным данным, предположениям об истинности и ложным корреляциям.

Не менее, если не более, важно спрашивать себя не только, что говорят данные, но и откуда они. Будьте «ориентированными на анализ«, а не «ориентированными на данные».

Что привело к получению данных? Может ли быть смещение? Когда это могло произойти? Что мы не улавливаем? И самое главное — как мы применяем нашу эвристику и предубеждения в интерпретации данных? Последняя часть неизбежна, поэтому научитесь правильно задавать все эти вопросы.

6. Компьютеры не могут отличить корреляцию от причинно-следственной связи

📊🙊 SkyNet придет не скоро: 10 вещей в Data Science, о которых вам никто не расскажет

Когда есть корреляция между x и y, компьютеры не могут определить, влияет ли x на y, y на x, или какая-то третья переменная z влияет на x и y. Он не может определить, что переменные не зависят друг от друга вовсе, и что корреляция случайна.

Это имеет много важных последствий не только для простых регрессий (например, приводит ли более высокий счет за воду к более высокому потреблению воды?), но также для машинного обучения и глубокого обучения. Модель компьютерного зрения может распознать пустую область как «корову», потому что она коррелировала больше с этими зонами, чем с коровами в процессе обучения.

Помните, что машинное обучение, в конце концов, это просто распознаватель образов, лишенный здравого смысла, а причинно-следственная связь до сих пор остается открытой проблемой. Но в этом есть и хорошие новости – SkyNet придет еще не скоро!

7. Анализ данных – это научный метод, применяемый в обратном направлении

Научные методы сначала выдвигают гипотезы, а затем собирают данные. Однако анализ данных сначала собирает данные, а затем выдвигает гипотезы. Хотя такой подход кажется безобидным, он может привести к печальным последствиям. Легко найти закономерности, которые являются случайными. И так как у вас нет контрольной и тестовой группы, результаты могут быть ложными. Поэтому является хорошей практикой брать свежие данные после анализа данных, чтобы проверить сохранились ли найденные закономерности.

Но разве машинное обучение и глубокое обучение — это анализ данных? Да, фактически они автоматизируют процесс, выполняя поиск данных как большого пространства гипотез. А переобучение — принятие неверной гипотезы. Для имитации свежих данных выделяются test- и validation-выборки, чтобы проверить, правильно ли подогнана модель.

8. Не все индустрии одинаковы

📊🙊 SkyNet придет не скоро: 10 вещей в Data Science, о которых вам никто не расскажет

Давайте сравним две индустрии: стриминговое кино (например, Netflix) и воздушно-космическая оборона (например, Lockheed Martin). Имеют ли они что-то общее? Вряд ли! Обе компании являются ориентированными на технологии, но одна на стриминговое кино для пользователей, а другая — на строительство самолетов.

Data science и машинное обучение — это аппроксимация, а это значит ошибка неизбежна. Важно отметить, что у этих компаний разные допуски к риску. Компания стриминга может рекламировать, что она имеет систему искусственного интеллекта, которая учится тому, какой фильм посоветовать пользователям, но что критического может случиться, если она даст плохую рекомендацию? Что ж, в самом худшем случае у вас будет слегка раздраженный пользователь, который потратил 2 часа на просмотр фильма, который ему не понравился.

А что насчёт компании воздушно-космической обороны? Если истребитель имеет искусственный интеллект на борту, который автоматически поражает цели, как критична может быть ошибка? Сейчас мы говорим о жизнях людей, а не о рекомендациях фильмов! Пропасть между допустимыми рисками в этих компаниях очень велика. Естественно, компания воздушно-космической обороны будет более консервативной при внедрении экспериментальной системы.

Как специалист Data Science, вы должны знать вашу индустрию и допустимость риска в ней. Руководители индустрий с высоким риском могут следить за индустриями с малым риском и испытывать страх упустить что-то, просто потому, что это несоответствие рисков недостаточно подчеркивается. С приложениями машинного обучения, которые на представляют опасность, не наносят вреда и не вызывают споров, работать гораздо легче. Работа с приложениями высокого уровня риска будет более сложной для движения в карьере и, возможно, потребует докторской степени, что также не спасает от ложноположительных и ложноотрицательных результатов.

9. Внедрение машинного обучения в производство — очень тяжелый процесс

Внедрение моделей машинного обучения в продакшн действительно тяжелый процесс. Результаты на тестовом и валидационном датасетах могут быть хороши в лабораторной среде, но на «живых» данных они могут заметно отличаться и будут полны неожиданными событиями. Затем возникают проблемы с «гниением» данных, когда у данных есть срок использования, так как тенденции приходят и уходят. Это также происходит, когда датчики на «само-управляемом автомобиле» перенастраиваются, что делает предыдущие данные и параметры модели бесполезными.

Существует огромный разрыв между Data Scientists и Software-разработчиками. И именно поэтому многие специалисты Data Science работают, не отрываясь от своего ноутбука. Вдобавок к проблемам с данными специалисты Data Science оказываются в положении, когда навыки разработки им просто необходимы. Как отмечалось ранее, важно спрашивать не только что говорят данные, но и откуда они и насколько контролируемой или неконтролируемой является среда, из которой будут собираться данные. Кроме того, перед тем как тратить сотни тысяч (если не миллионы) долларов на приобретение размеченных данных, убедитесь, что вы учитываете срок годности этих данных!

10. Очень важна приоритезация того, что надо учить

В Data Science общепринято постоянно учиться и проявлять любопытство. Это прекрасно, но все-таки более важный навык это расстановка приоритетов в получении знаний.

Информации так много, что приоритезация того, что вы изучаете, становится бесценным навыком. Лучший способ добиться этого — определить проблемы, которые кажутся вам интересными, а затем найти наилучшие способы их решения.

Вывод

Если вы хотите перейти в Data Science, то, скорее всего, столкнетесь с большим разрывом между ожиданиями и реальностью. Это не означает, что возможности отсутствуют: предстоит много работы и будет полезно разнообразить свои навыки, чтобы научиться находить правильное решение проблемы.

***

Материалы о теме

Источники

МЕРОПРИЯТИЯ

Комментарии

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ