📈 Почему Big data так быстро развивается?
Чтобы пройти обучение и получить высокооплачиваемую профессию, необходимо понять тенденции развития отрасли. Рассказываем о Big Data – одном из самых перспективных направлений в сфере ИТ.
О работе специалистов по анализу больших данных и необходимых для освоения профессии навыках мы уже писали. В подготовленной при поддержке Факультета аналитики Big Data онлайн-университета GeekBrains статье расскажем о тенденциях развития отрасли и ее перспективах.
Тенденции развития
Объемы данных продолжают увеличиваться
Большинство экспертов сходятся во мнении, что в будущем объем генерируемых данных будет расти экспоненциально. В подготовленном для Seagate отчете "Data Age 2025" аналитики IDC прогнозируют его увеличение до 175 зеттабайт к 2025 году. Что заставляет экспертов верить в такой стремительный рост?
Рядовые пользователи осуществляют в онлайне множество действий, от деловых коммуникаций до покупок и общения в социальных сетях. Миллиарды подключенных устройств и встроенных систем по всему миру также ежедневно создают, собирают и совместно используют данные Интернета вещей.
Предприятия, которые хранят и анализируют огромные объемы информации, станут управлять 60% больших данных в ближайшем будущем, однако отдельные потребители также играют значительную роль в этом процессе. В отчете IDC сообщается, что к 2025 году 6 миллиардов пользователей, или 75% населения мира, будут ежедневно взаимодействовать с онлайн-данными. Другими словами, каждый подключенный пользователь будет иметь по крайней мере одно взаимодействие каждые 18 секунд.
Столь большие объемы информации сложно хранить и обрабатывать. До недавнего времени эта проблема решалась экосистемами с открытым исходным кодом, вроде Hadoop и серверов NoSQL. Открытые продукты требуют серьезных затрат на внедрение и сопровождение, что оказалось сложным для многих компаний, и заказчики начали переносить большие данные в облака. AWS, Microsoft Azure и Google Cloud Platform полностью изменили отрасль. Раньше, когда компании намеревались запускать приложения с интенсивным использованием данных, им нужно было развивать собственные ЦОД, но облачная инфраструктура обеспечивает большую гибкость, масштабируемость и простоту использования.
Эти тенденции, безусловно, сохраняются и в 2020 году, но с некоторыми изменениями:
- Появление гибридных сред: многие компании не могут хранить конфиденциальную информацию на стороне, поэтому определенный объем данных размешается в собственных ЦОД, а остальное переносится в облако;
- Появление мульти-облачных сред: компании, которые стремятся максимально удовлетворить свои бизнес-потребности, предпочитают хранить данные с использованием комбинации нескольких публичных и частных облаков.
Конфиденциальность данных остается как никогда актуальной
Обеспечение безопасности и конфиденциальности данных всегда было непростой задачей. Постоянно растущие объемы информации создают дополнительные сложности с защитой от вторжений и кибератак. Существует несколько причин, лежащих в основе проблемы безопасности больших данных:
- Дефицит навыков в области кибербезопасности, вызванный отсутствием возможностей для образования и профессиональной подготовки. Этот разрыв постоянно растет и к 2021 году достигнет 3,5 миллиона незаполненных позиций в сфере кибербезопасности, сообщает Cybercrime Magazine;
- Эволюция кибератак – используемые хакерами угрозы развиваются и становятся все более сложными с каждым днем;
- Нерегулярное соблюдение стандартов безопасности. Хотя правительство разных стран принимают меры по стандартизации правил защиты данных, большинство организаций по-прежнему игнорируют стандарты безопасности.
Еще один важный момент – репутация компаний. Хотя многие организации рассматривают политику конфиденциальности, как обычную юридическую процедуру по умолчанию, пользователи имеют другое мнение, поскольку их личная информация оказывается под угрозой. Все больше организаций обеспечивают прозрачность и контроль над данными на уровне пользователей, и считают конфиденциальность своим главным приоритетом, наряду с кибербезопасностью и этичностью использования информации.
Перспективы сферы больших данных
Машинное обучение будет продолжать менять ландшафт
Играя огромную роль в индустрии больших данных, машинное обучение (ML) является еще одной технологией, которая, как ожидается, окажет существенное влияние на наше будущее. Проекты в этой сфере получили наибольшее финансирование в 2019 году по сравнению со всеми другими системами искусственного интеллекта.
До недавнего времени ML и ИИ были недоступны большинству компаний из-за доминирования платформ с открытым исходным кодом. Хотя те и были разработаны, чтобы сделать технологии ближе к людям, большинству компаний не хватает навыков для самостоятельной настройки необходимых решений.
Ситуация изменилась, как только коммерческие поставщики ИИ начали создавать соединители для платформ с открытым исходным кодом и предоставлять доступные продукты и сервисы, не требующие сложного конфигурирования. Коммерческие поставщики предлагают функции, которых в настоящее время не хватает платформам с открытым исходным кодом, такие как управление моделью машинного обучения и повторное использование.
Между тем эксперты предполагают, что способность компьютеров учиться на данных значительно улучшится благодаря более совершенным неконтролируемым алгоритмам, более глубокой персонализации и когнитивным услугам. В результате появятся машины, которые будут более умными и способными читать эмоции, водить автомобили, исследовать пространство и лечить пациентов.
Услуги Data Scientists и CDO’s будут пользоваться все большим спросом
Должности специалистов Data Science и Chief Data Officer (CDO) являются относительно новыми, и поэтому потребность в таких сотрудниках на рынке труда довольно высока. В 2019 году KPMG опросили 3600 ИТ-директоров и технологических руководителей из 108 стран и выяснили, что 67% из них столкнулись с нехваткой навыков в сфере аналитики больших данных, безопасности и искусственного интеллекта. Неудивительно, что Data Scientist входит в список самых быстрорастущих на рынке труда профессий, наряду с инженерами ML и аналитиками Big data. Большие данные бесполезны без анализа, и только специалисты могут превратить их в действенные идеи.
Пытаясь преодолеть разрыв в навыках, компании теперь также обучают специалистов Citizen Data Scientist, которые занимают позицию вне аналитической области, но при этом способны анализировать данные.
CDO — это руководители уровня C, отвечающие за доступность, целостность и безопасность данных в компании. По мере того, как все больше владельцев бизнеса осознают важность этой роли, найм CDO становится нормой: если верить опросу "Big Data and AI Executive Survey 2019" от NewVantage Partners, 67,9% крупных компаний уже заполнили данную позицию.
Однако позиция Chief Data Officer во многом остается неопределенной, особенно с точки зрения разделения обязанностей между CDO, Data Scientists и CIO. Это одна из ролей, которая зависит от бизнес-потребностей конкретных компаний, а также их цифровой зрелости. Следовательно, позиция CDO будет развиваться вместе с тем, как мир станет более ориентированным на данные.
Быстрые и действенные данные выйдут на передний план
Еще одно предсказание о будущем связано с появлением так называемых «быстрых данных» и «действенных данных». В отличие от больших данных, требующих наличия сервисов Hadoop и NoSQL для анализа информации, быстрые данные можно обрабатывать в масштабе реального времени. Благодаря такой потоковой обработке информация может быть проанализирована буквально за считанные миллисекунды. Это приносит больше пользы организациям, которые могут принимать бизнес-решения и предпринимать действия сразу же после поступления данных. Быстрые данные также испортили пользователей, сделав их зависимыми от взаимодействия в реальном времени. По мере того, как бизнес становится все более цифровым, качество обслуживания клиентов повышается – пользователи ожидают, что получат доступ к данным на ходу. Более того, они хотят, чтобы это было персонализировано. В подготовленном для Seagate отчете IDC прогнозирует, что к 2025 году к почти 30% глобальных данных будет обеспечен доступ в режиме реального времени.
Действенные данные – недостающее звено между Big data и бизнесом. Как уже упоминалось ранее, большие данные сами по себе бесполезны без эффективного анализа. Обрабатывая их с помощью аналитических платформ, организации могут сделать информацию точной, стандартизированной и действенной. Эти знания помогают принимать более обоснованные бизнес-решения, совершенствовать деятельность и разрабатывать больше вариантов использования собранной информации.
Хочу подтянуть знания по математике, но не знаю, с чего начать. Что делать?
Если базовые концепции языка программирования можно достаточно быстро освоить самостоятельно, то с математикой могут возникнуть сложности. Чтобы помочь освоить математический инструментарий, «Библиотека программиста» совместно с преподавателями ВМК МГУ разработала курс по математике для Data Science, на котором вы:
- подготовитесь к сдаче вступительных экзаменов в Школу анализа данных Яндекса;
- углубитесь в математический анализ, линейную алгебру, комбинаторику, теорию вероятностей и математическую статистику;
- узнаете роль чисел, формул и функций в разработке алгоритмов машинного обучения.
- освоите специальную терминологию и сможете читать статьи по Data Science без постоянных обращений к поисковику.
Курс подойдет как начинающим специалистам, так и действующим программистам и аналитикам, которые хотят повысить свой уровень или перейти в новую область.