Data Science – относительно новый раздел знаний, поэтому существует множество мифов о том, чем занимаются специалисты по науке о данных. Мы собрали несколько самых распространенных заблуждений о профессии Data Scientist и разрушили их раз и навсегда.
Чтобы стать Data Scientist необходимо специальное образование
Распространенное заблуждение заключается в том, что Data Scientists являются также специалистами в статистике и математике. Это не совсем так. В Data Science действительно требуется понимание статистики, но компании могут использовать анализ данных и не имея статистика в штате. У большинства разработчиков есть базовое представление о статистике, благодаря прослушанным в вузе курсам. Хотя в машинном обучении и Deep learning требуются продвинутые знания, это не означает, что не обладая степенью в области математики или статистики нельзя стать экспертом по данным.
Если вы являетесь разработчиком, которому поручено создание возможностей для анализа данных, или вы хотите заняться этим самостоятельно, стоит обновить или расширить познания в статистике. Иначе невозможно понять основные принципы разработки моделей.
Вам не нужно проходить формальный курс. Вам не нужно стремиться получить степень магистра. Электронные книги и другие упомянутые в статье о навыках, необходимых в профессии Data Scientist ресурсы помогут понять основы. Вооружившись этим знанием, вы сможете создавать модели, которые будут полезны для бизнеса.
Если вы захотите изменить или оптимизировать модель, могут потребоваться более глубокие познания в математике и статистике. Они помогут понять, какие параметры влияют на результаты модели. В статье Как я перешел из математиков в аналитики данных мы писали о Тиме Хоппере, математике, который самостоятельно освоил профессию Data Scientist и работает в сфере кибербезопасности и инжиниринга машинного обучения. Тим является отличным примером специалиста Data Science, который построил свою карьеру практически с нуля и научился всему самостоятельно.
Чтобы стать Data Scientist необходим диплом
Для освоения профессии Data Scientist необязательно получать ученую степень или специальное образование. Во вступительных публикациях серии мы писали о том, как можно изучить Data Science онлайн с нуля, а также о навыках, необходимых в профессии Data Scientist. В предыдущих статьях подробно рассказано о навыках, которые потребуются для освоения профессии, а также даны ссылки на необходимые для обучения ресурсы: онлайн-курсы, подкасты, каналы Youtube и книги.
Давайте все же проясним, откуда возникло это заблуждение. Многие знания и навыки профессии Data Scientist можно освоить самостоятельно с нуля. Однако роль специалиста Data Science делится на две категории: прикладную и исследовательскую. Прикладная наука о данных – это прежде всего работа с существующими алгоритмами и понимание их особенностей. Задача таких специалистов – применение методов Data Science в конкретных проектах. В профессии требуются в основном специалисты-прикладники.
Если вас больше интересует роль исследователя, тогда может пригодиться степень кандидата наук: вам наверняка потребуются навыки создания новых алгоритмов с нуля, их тестирования и оптимизации, написания научных статей и т. д. Получение ученой степени в сфере, которая поможет будущей карьере, также отличная идея. Например, степень по лингвистике будет чрезвычайно полезна для карьеры в NLP.
Стоит понимать, что получение степени – большая затрата времени, а также ответственность, как моральная так и финансовая. Итак, в какой роли вы видите себя? Это очень важный вопрос, на который нужно ответить, прежде чем перейти в профессию Data Scientist.
Data Science подходит только для крупных организаций с большими ресурсами
Многие бизнесмены и предприниматели имеют ложное представление о Data Science. Одно из самых распространенных заблуждений заключается в том, что наука о данных якобы нужна только крупным организациям. Это происходит из-за неправильного представления о требованиях к инфраструктуре для обработки данных и получения максимальной ценности для бизнеса. На самом деле необходима только группа людей, которые знают, как извлечь полезную информацию из имеющихся данных. Учитывая основанный на данных подход, не стоит вкладывать значительные средства в создание аналитической инфраструктуры. Существует множество инструментов с открытым исходным кодом, которые помогут в обработке крупномасштабных данных с высокой точностью и эффективностью.
Другой распространенный миф о связанных с Data Science проектах для бизнеса – возможность решить любую проблему методами Data Science. Заказчики ждут от команды результатов, которых невозможно достичь, анализируя существующие данные. Подробнее о проблемах, с которыми сталкиваются проекты, мы писали в статье 5 возможных причин провала проектов в Data Science.
Чтобы стать Data Scientist достаточно приобрести опыт работы с инструментами Data Science
Многие придерживаются неверного мнения о том, что изучения статистического инструмента, наподобие SAS, или освоения программирования на Python с использованием библиотек для Data Science, достаточно, чтобы получить профессию. Изучение инструментов важно, но не является единственными необходимым условием для эффективной работы в Data Science. Для специалиста в этой области требуется умение выйти за рамки инструментов и быстро овладеть знаниями в бизнес-области и навыками правильного применения доступных средств для решения бизнес-проблем. Большим плюсом являются хорошие коммуникативные навыки: они необходимы, чтобы представить идеи и результаты самым простым из возможных способов.
Существует также заблуждение о том, что специалист по анализу данных должен писать сложный код и иметь степень в области компьютерных наук. Чтобы получить профессию Data Scientist, не нужно быть отличным программистом. Если перечислить рутинные задачи науки о данных, можно обнаружить, что никакого сложного кодирования не требуется. На самом деле большинство методов или алгоритмов Data Science легко доступны, они предполагают лишь небольшую настройку и оптимизацию под цели и задачи проекта. Для этого необходим логический склад ума — особенность психики, которая является ключевой в профессии Data Scientist.
Data Science – это только построение моделей
Многие считают, будто Data Science – это только построение моделей, а типичный Data Scientist работает над их созданием и оптимизацией. На самом деле работа в Data Science – это гораздо больше, чем построение моделей, а общий процесс разработки проекта разбивается на несколько этапов. Он включает в себя сбор и очистку данных, исследовательский анализ, проверку данных и т. д. Построение модели – только один из уровней. Полный жизненный цикл проекта выглядит примерно так:
- Понимание и постановка задач;
- Построение гипотезы;
- Сбор данных;
- Проверка данных;
- Очистка данных;
- Исследовательский анализ;
- Проектирование модели;
- Тестирование/верификация модели;
- Возврат к этапу проверки или очистки в случае обнаружения ошибки;
- Запуск проекта в производство (развертывание модели).
Кроме того Data Science не ограничивается простым составлением прогнозов. Главная задача здесь – комбинация методов кластеризации и ассоциативных правил, а также обнаружение ошибок и способность вычислять сбои в данных.
ИИ аменит Data Science в будущем
Из-за все более широкого внедрения автоматизации в Data Science возник миф о том, что в ближайшем будущем профессионалов полностью заменит искусственный интеллект. Одна из причин распространения этого заблуждения, вероятно, связана с задачей поиска закономерностей. Как правило компьютеры решают ее лучше людей, но это не тот случай. Вполне возможно, что ИИ доверят некоторые рутинные задачи, вроде очистки и подготовки данных, но человек всегда будет играть важную роль в выполнении интеллектуальных операций. Data Science стремится к автоматизации многих задач, и в результате создаются все более сложные алгоритмы, которые смогут в будущем заменить Data Scientists. Однако это по-прежнему остается маловероятным, так как даже самые продвинутые информационные системы требуют человеческого руководства и инструкций.
Хочу подтянуть знания по математике, но не знаю, с чего начать. Что делать?
Если базовые концепции языка программирования можно достаточно быстро освоить самостоятельно, то с математикой могут возникнуть сложности. Чтобы помочь освоить математический инструментарий, «Библиотека программиста» совместно с преподавателями ВМК МГУ разработала курс по математике для Data Science, на котором вы:
- подготовитесь к сдаче вступительных экзаменов в Школу анализа данных Яндекса;
- углубитесь в математический анализ, линейную алгебру, комбинаторику, теорию вероятностей и математическую статистику;
- узнаете роль чисел, формул и функций в разработке алгоритмов машинного обучения.
- освоите специальную терминологию и сможете читать статьи по Data Science без постоянных обращений к поисковику.
Курс подойдет как начинающим специалистам, так и действующим программистам и аналитикам, которые хотят повысить свой уровень или перейти в новую область.
Комментарии