yuliianikolaenko 20 октября 2020

📊 Data Science и Big Data: сходства и различия

Разложим по полочкам сходства и различия между специализациями Data Science и Big Data. Их сущность будем раскрывать через примеры и сравнение наборов используемых инструментов.
📊 Data Science и Big Data: сходства и различия

Если вы заинтересованы в работе с данными, важно иметь четкое представление о связанных с ней направлениях ИТ. В статье, подготовленной при поддержке Факультетов Искусственного интеллекта и Аналитики Big Data онлайн-университета GeekBrains, мы расскажем о сходстве и основных различиях между специализациями Data Science и Big Data.

Термины

Data Science

Data Science – междисциплинарная область, которая охватывает практически все, что связано с данными: от их подготовки до очистки и анализа. Data Science использует научные методы и алгоритмы для работы как со структурированными, так и с неструктурированными данными. Эта область сочетает в себе статистику, математику, машинное обучение, решение проблем и многое другое.

В статье «Научиться Data Science онлайн» мы подробнее рассказали, чем занимаются специалисты Data Science и как овладеть профессией с нуля.

Big Data

Big Data – область, в которой рассматриваются различные способы анализа и систематического извлечения больших объемов данных. Big Data включает применение механических или алгоритмических процессов получения оперативной информации для решения сложных бизнес-задач. Специалисты по Big Data работают с сырыми неструктурированными данными, результаты анализа которых используются для поддержки принятия решений в бизнесе. Аналитика больших данных включает проверку, преобразование, очистку и моделирование данных.

<a href="https://www.ibmbigdatahub.com/infographic/four-vs-big-data" target="_blank" rel="noopener noreferrer nofollow">Источник</a>
Источник

Работа с большими данными строится вокруг четырех правил (c англ. V’s of Big Data: Volume, Velocity, Variety, Veracity):

  • Объем: объем данных, которые могут собирать компании, действительно огромен, и поэтому их размер становится критическим фактором в аналитике.
  • Скорость: высокая скорость, с которой генерируется информация. Практически все происходящее вокруг нас (поисковые запросы, социальные сети и т. д.) производит новые данные, многие из которых могут быть использованы в бизнес-решениях.
  • Разнообразие: генерируемая информация неоднородна и может быть представлена в различных форматах, таких, например, как видео, текст, базы данных, числовая информация, сенсорные данные и т. д. Понимание типа больших данных является ключевым фактором для раскрытия их ценности.
  • Достоверность: достоверность относится к качеству анализируемых данных. Данные высокой достоверности содержат много записей, которые ценны для анализа и которые вносят значимый вклад в общие результаты. С другой стороны данные с низкой достоверностью содержат высокий процент бессмысленной информации, которая называется шумом.

О том, чем занимаются специалисты по анализу больших данных, мы подробнее писали в статье «Big Data: размер имеет значение».

<a href="https://www.google.com/url?sa=i&amp;url=https%3A%2F%2Fwww.elmhurst.edu%2Fblog%2Ffuture-of-data-science%2F&amp;psig=AOvVaw0dGGYrmNMN04FLar1s0qzD&amp;ust=1603269904686000&amp;source=images&amp;cd=vfe&amp;ved=0CAIQjRxqFwoTCID0zoPkwuwCFQAAAAAdAAAAABAD" target="_blank" rel="noopener noreferrer nofollow">Источник</a>
Источник

Применение

Data Science

  • Цифровая реклама: алгоритмы Data science используются во всей области цифрового маркетинга – от рекламных щитов до рекламных баннеров.
  • Поиск в интернете: алгоритмы Data science также применяются поисковыми системами для получения наилучших результатов по запросам в течение нескольких секунд.
  • Рекомендательные системы: компании используют технологии Data Science для продвижения своих продуктов, а также для выдачи рекомендаций в соответствии с актуальностью информации и требованиями пользователя. Эти системы не только улучшают пользовательский опыт, но и облегчают поиск продуктов или услуг.

Big Data

Аналитика больших данных применяется в самых разных областях. Перечислим некоторые из них:

  • Игровая индустрия использует BigData, чтобы получить информацию о таких вещах, как симпатии, антипатии, отношения пользователей и т. д.
  • Поставщикам медицинских услуг аналитика больших данных нужна для отслеживания и оптимизации потока пациентов, отслеживания использования оборудования и лекарств, организации информации о пациентах и т. д.
  • Туристические компании применяют методы анализа больших данных для оптимизации опыта покупок по различным каналам. Они также изучают потребительские предпочтения и желания, находят корреляцию между текущими продажами и последующим просмотром, что позволяет оптимизировать конверсии.
Использование больших данных становятся эффективной основой для конкуренции практически во всех сферах. Независимо от того, к какой отрасли вы обратитесь, здравоохранение и персонализированная медицина, или логистика и операции, все они пытаются повысить эффективность своих цепочек поставок с помощью данных.
<a href="https://leverageedu.com/blog/bsc-computer-science-vs-bca/" target="_blank" rel="noopener noreferrer nofollow">Источник</a>
Источник

Навыки

Data Science

Чтобы стать профессионалом в области Data Science, необходим аналитический склад ума, а также навыки управления данными. Большой процент специалистов имеет степень магистра в сфере компьютерных наук и знания в области статистики и математики. Вам также потребуются навыки программирования на Python и SQL, визуализации данных в Tableau и/или PowerBI, работы с библиотеками для машинного обучениями: Pandas, Scikit-learn и NumPy. Наряду с техническими навыками, специалисты Data Science должны обладать набором soft-skills: коммуникабельностью, умением донести информацию простым языком, способностью работать в команде. Самое главное – умение самостоятельно и быстро учиться.

Подробнее о том, как самостоятельно овладеть всеми ключевыми навыками, мы писали в статье «10 навыков, необходимых в профессии Data Scientist».

Big Data

Специалист по анализу больших данных должен хорошо разбираться в таких языках программирования, как R и/или Python и SQL. Наряду с хорошими знаниями статистики и математики, ему потребуются навыки работы с инструментами, вроде Hadoop или Spark, для решения проблем, связанных с огромными объемами данных и их распределенной обработкой. Необходимо владеть навыками визуализации и преобразования данных, а также разбираться в машинном обучении.

О том какие навыки необходимы в сфере Big data, мы подробно писали в статье «Стать аналитиком Big Data: пошаговое руководство».

<a href="https://www.valtira.com/data-analytics-in-2020/" target="_blank" rel="noopener noreferrer nofollow">Источник</a>
Источник

Обязанности

Data Science

Учитывая огромное количество ежедневно обрабатываемых с помощью различных устройств по всему миру данных, организации заинтересованы в получении ценной информации из этого потока. Специалисты Data Science выполняют исследовательский анализ, а также используют различные виды алгоритмов машинного обучения для составления прогнозов определенных событий. Они сосредоточены на выявлении неизвестных корреляций, скрытых моделей и рыночных тенденций.

Big Data

В обязанности аналитиков больших данных входит работа с большим количеством разнородной информации, собранной из различных источников и поступающей с высокой скоростью. Специалисты по Big Data описывают поведение и структуру данных, а также то, как они могут быть представлены с помощью инструментов анализа: Spark, Hadoop и т. д.

Ключевые обязанности специалиста по Big Data включает понимание идей и тенденций, которые выявляются с помощью огромных наборов данных. После преобразования неструктурированной информации, бизнесу становится ясно, чего именно хотят клиенты, какие продукты продвигаются быстрее, каковы ожидания пользователей от обслуживания, как ускорить выход продукта на рынок и какие способы снижения затрат существуют. Большие данные явно приводят к большим временным выгодам для организаций, поэтому существует огромный спрос на специалистов в данной области.

<a href="https://www.bsebti.com/blog/demand-for-data-scientists-has-doubled-after-the-corona-outbreak/" target="_blank" rel="noopener noreferrer nofollow">Источник</a>
Источник

Карьерные перспективы

В российском IT-секторе, есть тенденция к разделению специалистов по Data Science и Big Data при найме на работу. Однако по запросам Big Data в Яндекс.Работа и HeadHunter, можно заметить, что анализ больших данных включен в описание вакансий как Data Scientist, так и Big Data Engineer.

Начальная зарплата Data Scientist с опытом работы до года – от 113 тыс. рублей. Через 1 – 2 года такой специалист уже может получать до 160 тыс. рублей. Для сотрудника с опытом работы от 4 – 5 лет вилка вырастает до 310 тыс. По запросу на октябрь 2020 года для специалиста Big Data, средняя зарплата по России составляет около 118 тыс. рублей.

Будьте реалистичны в отношении своих возможностей трудоустройства и адаптируйте эти ожидания. Не существует универсальных стандартов для образования, опыта работы и навыков кодирования, но существуют нормы внутри каждой компании. Проводите свои исследования о специалистах Data Science, которые уже работают в данной компании для того, чтобы понять, на каком уровне ваши текущие знания.
***

Хочу подтянуть знания по математике, но не знаю, с чего начать. Что делать?

Если базовые концепции языка программирования можно достаточно быстро освоить самостоятельно, то с математикой могут возникнуть сложности. Чтобы помочь освоить математический инструментарий, «Библиотека программиста» совместно с преподавателями ВМК МГУ разработала курс по математике для Data Science, на котором вы:

  • подготовитесь к сдаче вступительных экзаменов в Школу анализа данных Яндекса;
  • углубитесь в математический анализ, линейную алгебру, комбинаторику, теорию вероятностей и математическую статистику;
  • узнаете роль чисел, формул и функций в разработке алгоритмов машинного обучения.
  • освоите специальную терминологию и сможете читать статьи по Data Science без постоянных обращений к поисковику.

Курс подойдет как начинающим специалистам, так и действующим программистам и аналитикам, которые хотят повысить свой уровень или перейти в новую область.

Комментарии

ВАКАНСИИ

Добавить вакансию
Разработчик C++
Москва, по итогам собеседования

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ