Если вы заинтересованы в работе с данными, важно иметь четкое представление о связанных с ней направлениях ИТ. В статье, подготовленной при поддержке Факультетов Искусственного интеллекта и Аналитики Big Data онлайн-университета GeekBrains, мы расскажем о сходстве и основных различиях между специализациями Data Science и Big Data.
Термины
Data Science
Data Science – междисциплинарная область, которая охватывает практически все, что связано с данными: от их подготовки до очистки и анализа. Data Science использует научные методы и алгоритмы для работы как со структурированными, так и с неструктурированными данными. Эта область сочетает в себе статистику, математику, машинное обучение, решение проблем и многое другое.
В статье «Научиться Data Science онлайн» мы подробнее рассказали, чем занимаются специалисты Data Science и как овладеть профессией с нуля.
Big Data
Big Data – область, в которой рассматриваются различные способы анализа и систематического извлечения больших объемов данных. Big Data включает применение механических или алгоритмических процессов получения оперативной информации для решения сложных бизнес-задач. Специалисты по Big Data работают с сырыми неструктурированными данными, результаты анализа которых используются для поддержки принятия решений в бизнесе. Аналитика больших данных включает проверку, преобразование, очистку и моделирование данных.
Работа с большими данными строится вокруг четырех правил (c англ. V’s of Big Data: Volume, Velocity, Variety, Veracity):
- Объем: объем данных, которые могут собирать компании, действительно огромен, и поэтому их размер становится критическим фактором в аналитике.
- Скорость: высокая скорость, с которой генерируется информация. Практически все происходящее вокруг нас (поисковые запросы, социальные сети и т. д.) производит новые данные, многие из которых могут быть использованы в бизнес-решениях.
- Разнообразие: генерируемая информация неоднородна и может быть представлена в различных форматах, таких, например, как видео, текст, базы данных, числовая информация, сенсорные данные и т. д. Понимание типа больших данных является ключевым фактором для раскрытия их ценности.
- Достоверность: достоверность относится к качеству анализируемых данных. Данные высокой достоверности содержат много записей, которые ценны для анализа и которые вносят значимый вклад в общие результаты. С другой стороны данные с низкой достоверностью содержат высокий процент бессмысленной информации, которая называется шумом.
О том, чем занимаются специалисты по анализу больших данных, мы подробнее писали в статье «Big Data: размер имеет значение».
Применение
Data Science
- Цифровая реклама: алгоритмы Data science используются во всей области цифрового маркетинга – от рекламных щитов до рекламных баннеров.
- Поиск в интернете: алгоритмы Data science также применяются поисковыми системами для получения наилучших результатов по запросам в течение нескольких секунд.
- Рекомендательные системы: компании используют технологии Data Science для продвижения своих продуктов, а также для выдачи рекомендаций в соответствии с актуальностью информации и требованиями пользователя. Эти системы не только улучшают пользовательский опыт, но и облегчают поиск продуктов или услуг.
Big Data
Аналитика больших данных применяется в самых разных областях. Перечислим некоторые из них:
- Игровая индустрия использует BigData, чтобы получить информацию о таких вещах, как симпатии, антипатии, отношения пользователей и т. д.
- Поставщикам медицинских услуг аналитика больших данных нужна для отслеживания и оптимизации потока пациентов, отслеживания использования оборудования и лекарств, организации информации о пациентах и т. д.
- Туристические компании применяют методы анализа больших данных для оптимизации опыта покупок по различным каналам. Они также изучают потребительские предпочтения и желания, находят корреляцию между текущими продажами и последующим просмотром, что позволяет оптимизировать конверсии.
Использование больших данных становятся эффективной основой для конкуренции практически во всех сферах. Независимо от того, к какой отрасли вы обратитесь, здравоохранение и персонализированная медицина, или логистика и операции, все они пытаются повысить эффективность своих цепочек поставок с помощью данных.
Навыки
Data Science
Чтобы стать профессионалом в области Data Science, необходим аналитический склад ума, а также навыки управления данными. Большой процент специалистов имеет степень магистра в сфере компьютерных наук и знания в области статистики и математики. Вам также потребуются навыки программирования на Python и SQL, визуализации данных в Tableau и/или PowerBI, работы с библиотеками для машинного обучениями: Pandas, Scikit-learn и NumPy. Наряду с техническими навыками, специалисты Data Science должны обладать набором soft-skills: коммуникабельностью, умением донести информацию простым языком, способностью работать в команде. Самое главное – умение самостоятельно и быстро учиться.
Подробнее о том, как самостоятельно овладеть всеми ключевыми навыками, мы писали в статье «10 навыков, необходимых в профессии Data Scientist».
Big Data
Специалист по анализу больших данных должен хорошо разбираться в таких языках программирования, как R и/или Python и SQL. Наряду с хорошими знаниями статистики и математики, ему потребуются навыки работы с инструментами, вроде Hadoop или Spark, для решения проблем, связанных с огромными объемами данных и их распределенной обработкой. Необходимо владеть навыками визуализации и преобразования данных, а также разбираться в машинном обучении.
О том какие навыки необходимы в сфере Big data, мы подробно писали в статье «Стать аналитиком Big Data: пошаговое руководство».
Обязанности
Data Science
Учитывая огромное количество ежедневно обрабатываемых с помощью различных устройств по всему миру данных, организации заинтересованы в получении ценной информации из этого потока. Специалисты Data Science выполняют исследовательский анализ, а также используют различные виды алгоритмов машинного обучения для составления прогнозов определенных событий. Они сосредоточены на выявлении неизвестных корреляций, скрытых моделей и рыночных тенденций.
Big Data
В обязанности аналитиков больших данных входит работа с большим количеством разнородной информации, собранной из различных источников и поступающей с высокой скоростью. Специалисты по Big Data описывают поведение и структуру данных, а также то, как они могут быть представлены с помощью инструментов анализа: Spark, Hadoop и т. д.
Ключевые обязанности специалиста по Big Data включает понимание идей и тенденций, которые выявляются с помощью огромных наборов данных. После преобразования неструктурированной информации, бизнесу становится ясно, чего именно хотят клиенты, какие продукты продвигаются быстрее, каковы ожидания пользователей от обслуживания, как ускорить выход продукта на рынок и какие способы снижения затрат существуют. Большие данные явно приводят к большим временным выгодам для организаций, поэтому существует огромный спрос на специалистов в данной области.
Карьерные перспективы
В российском IT-секторе, есть тенденция к разделению специалистов по Data Science и Big Data при найме на работу. Однако по запросам Big Data в Яндекс.Работа и HeadHunter, можно заметить, что анализ больших данных включен в описание вакансий как Data Scientist, так и Big Data Engineer.
Начальная зарплата Data Scientist с опытом работы до года – от 113 тыс. рублей. Через 1 – 2 года такой специалист уже может получать до 160 тыс. рублей. Для сотрудника с опытом работы от 4 – 5 лет вилка вырастает до 310 тыс. По запросу на октябрь 2020 года для специалиста Big Data, средняя зарплата по России составляет около 118 тыс. рублей.
Будьте реалистичны в отношении своих возможностей трудоустройства и адаптируйте эти ожидания. Не существует универсальных стандартов для образования, опыта работы и навыков кодирования, но существуют нормы внутри каждой компании. Проводите свои исследования о специалистах Data Science, которые уже работают в данной компании для того, чтобы понять, на каком уровне ваши текущие знания.
Хочу подтянуть знания по математике, но не знаю, с чего начать. Что делать?
Если базовые концепции языка программирования можно достаточно быстро освоить самостоятельно, то с математикой могут возникнуть сложности. Чтобы помочь освоить математический инструментарий, «Библиотека программиста» совместно с преподавателями ВМК МГУ разработала курс по математике для Data Science, на котором вы:
- подготовитесь к сдаче вступительных экзаменов в Школу анализа данных Яндекса;
- углубитесь в математический анализ, линейную алгебру, комбинаторику, теорию вероятностей и математическую статистику;
- узнаете роль чисел, формул и функций в разработке алгоритмов машинного обучения.
- освоите специальную терминологию и сможете читать статьи по Data Science без постоянных обращений к поисковику.
Курс подойдет как начинающим специалистам, так и действующим программистам и аналитикам, которые хотят повысить свой уровень или перейти в новую область.
Комментарии