natkaida 20 января 2025

DS Python Тренды

2617

🤖 📈 Data Science в 2025 году: 7 главных трендов

Разработчики JetBrains и Python Software Foundation поделились выводами об основных тенденциях в развитии науки о данных. Давайте разберемся, что значат эти изменения и какие тенденции стоит учитывать, чтобы быть в курсе последних событий в Data Science и машинном обучении в 2025 году.

Каждый год компания JetBrains совместно с Python Software Foundation проводит опрос Python-разработчиков, который помогает понять, какие технологии и подходы становятся популярнее. В последнем опросе появился новый раздел, посвященный Data Science. Это позволило получить более полную картину изменений в области науки о данных и подтвердило важную роль Python (подробнее о трендах в экосистеме – в этой статье).

Использование Python в Data Science

Доля Python в анализе данных и машинном обучении понемногу снижается – очевидно, это связано с появлением соответствующих библиотек на других языках, превосходящих Питон по производительности (в первую очередь – Rust и Julia).

Доля Python в анализе данных сократилась с 51% до 44%, а в машинном обучении – с 36% до 34%

В то же время, Python оказался востребованным в новых направлениях – 27% опрошенных используют Питон для построения и управления потоками данных (Data Engineering), а 8% специалистов используют язык для MLOps (автоматизации развертывания и поддержки моделей).

Обработка данных: pandas остаeтся лидером, но Polars набирает популярность

Обработка данных – ключевой этап в Data Science, и библиотека pandas, которой уже 15 лет, остается самым популярным инструментом для работы с данными. По данным опроса, 77% специалистов, занимающихся анализом и обработкой данных, используют pandas.

Почему pandas по-прежнему в топе:

У pandas простой и понятный API, который не претерпевает резких изменений.
В интернете можно найти множество примеров использования pandas – новички быстро осваивают библиотеку и без проблем включаются в работу.
Проект поддерживается организацией NumFOCUS, что гарантирует его устойчивость и развитие.

Однако недавно появилась библиотека Polars – инструмент, позиционирующий себя как DataFrames нового поколения. Polars предлагает быструю обработку данных благодаря параллельным вычислениям и уверенно набирает популярность:

В 2023 году была основана компания для поддержки разработки Polars, что ускорило развитие библиотеки.
В июле 2024 вышла версия 1.0, расширившая совместимость с Hugging Face и NVIDIA RAPIDS.
Polars, как и pandas, теперь поддерживает встроенную визуализацию данных.

Согласно опросу, уже 10% специалистов в 2023 году использовали Polars. Очевидно, этот показатель вырос в 2024 году, и в 2025 тенденция продолжится.

Самые популярные инструменты для обработки данных

Другие инструменты для обработки данных

Появился проект Narwhals, который пытается объединить API pandas, Polars и других инструментов. Он был запущен в феврале 2024 года, поэтому пока не попал в список самых популярных решений, но может стать востребованным в будущем.

Кроме того, остаются популярными:

Apache Spark (16%) – мощный инструмент для распределенной обработки больших данных.
Dask (7%) – альтернатива Spark, позволяющая работать с данными в параллельном режиме прямо в Python.

Эти инструменты относятся к продвинутым и требуют времени на изучение, но спрос на них будет увеличиваться, так как объемы данных продолжают расти.

Визуализация данных: сможет ли HoloViz Panel обойти Plotly Dash и Streamlit в 2025 году?

Для специалистов по данным важно не только анализировать информацию, но и представлять ее в понятном виде. Для этого существуют интерактивные инструменты визуализации и дашборды.

Самым популярным инструментом остается Plotly Dash

Популярные библиотеки для дашбордов:

Plotly Dash. Библиотека Plotly известна в Data Science-сообществе благодаря инструменту ggplot2 (очень популярному среди пользователей R). Dash – это фреймворк для создания интерактивных веб-приложений на Python. Он удобен для тех, кто уже знаком с Plotly. Однако для работы с Dash нужно разбираться в HTML-компонентах, что может быть сложностью для пользователей без опыта в веб-разработке.
Streamlit – более простой в использовании инструмент по сравнению с Dash. Приобретен компанией Snowflake и активно развивается. Streamlit позволяет быстро создавать дашборды, поддерживает многостраничные приложения, однако менее гибок, чем Plotly Dash.

HoloViz Panel – новый конкурент

С учетом результатов за 2024 год ситуация может измениться: HoloViz Panel, новая библиотека из экосистемы HoloViz, быстро набирает популярность.

Почему Panel может обойти конкурентов:

Спонсируется NumFocus, что делает ее перспективной.
Хорошо интегрируется с Jupyter Notebook.
Поддерживает HTML-отчеты и предлагает готовые шаблоны.
Обладает гибкими настройками – подходит как новичкам, так и опытным пользователям.

HoloViz Panel пока уступает Plotly Dash и Streamlit, но уже привлекает внимание сообщества PyData. В ближайшие годы библиотека вполне может занять значительную долю рынка инструментов визуализации.

Модели машинного обучения: scikit-learn остается важным инструментом, а PyTorch лидирует в глубоком обучении

С ростом популярности генеративного ИИ и больших языковых моделей (LLM) можно было бы ожидать, что глубокое обучение полностью вытеснит классические методы машинного обучения. Однако это не так: в 2025 году классическое ML и глубокое обучение будут дополнять друг друга, а новые инструменты сделают интеграцию еще удобнее.

Самые популярные инструменты для машинного обучения

Классическое машинное обучение

scikit-learn остается ключевой библиотекой для машинного обучения. Этот инструмент:

Основан на статистических методах и широко используется для решения задач классификации, регрессии и кластеризации.
Спонсируется NumFocus с 2020 года, что гарантирует его долгосрочную поддержку.
В сочетании с SciPy (библиотекой для научных вычислений) является основой традиционной Data Science.

Глубокое обучение

Нейросети и глубокое обучение продолжают набирать популярность. PyTorch – лидер в глубоких нейросетях. Этот фреймворк:

Работает с динамическими вычислительными графами, что упрощает отладку и эксперименты.
Использует тензоры, схожие с массивами NumPy, что делает его удобным для Python-разработчиков.
Подходит для исследований и прототипирования моделей.

TensorFlow – альтернатива для продакшена:

Использует статические вычислительные графы, что делает его более оптимизированным для масштабируемых проектов.
Поддерживает различные языки (Python, C++, JavaScript, C#, Swift и др.)

Hugging Face Transformers – библиотека для работы с LLM:

Предоставляет готовые предобученные модели (например, BERT, GPT) для обработки естественного языка.
Работает с PyTorch, TensorFlow и JAX.
В 2025 году ожидается еще больший рост популярности из-за распространения LLM.

Новый тренд в ML: Scikit-LLM

В 2024 году появилась новая библиотека Scikit-LLM, которая объединяет возможности scikit-learn и моделей OpenAI (например, ChatGPT). Она позволяет использовать LLM в анализе текста, и интегрируется со scikit-learn, добавляя возможности для работы с нейросетями.

🤖 Библиотека Дата Сайентиста

Больше полезных материалов вы найдете на нашем телеграм-канале «Библиотека Дата Сайентиста»

🤖🎓 Библиотека DS для собеса

Подтянуть свои знания по DS вы можете на нашем телеграм-канале «Библиотека DS для собеса»

🤖🧩 Библиотека задач по DS

Интересные задачи по DS для практики можно найти на нашем телеграм-канале «Библиотека задач по DS»

МLOps – будущее Data Science-проектов

Один из самых важных, но часто упускаемых аспектов проектов в области Data Science – это MLOps (развертывание и поддержка; DevOps для машинного обучения):

В процессе работы над проектом специалисты по данным должны управлять данными, переобучать модель и контролировать версии как самих моделей, так и используемых данных.
Когда приложение на основе машинного обучения развертывается в продакшене, важно также следить за его производительностью и анализировать, как оно используется.

Версионирование данных

В последние годы появились инструменты MLOps, специально разработанные для поддержки проектов Data Science. Одной из ключевых проблем, с которой сталкиваются специалисты по данным и инженеры, является версионирование данных. Это особенно важно, если в ваш конвейер обработки данных постоянно поступают новые данные.

Большинство компаний использует собственные решения для версионирования

Отслеживание экспериментов

Специалисты по данным также должны отслеживать свои эксперименты, поскольку модель машинного обучения будет переобучаться на новых данных и гиперпараметры нужно будет подбирать заново. Для этого важно вести журнал обучения модели и фиксировать результаты экспериментов.

Инструменты для отслеживания экспериментов

На данный момент самым популярным инструментом для этих целей является TensorBoard. Однако ситуация может вскоре измениться: сервис TensorBoard.dev был закрыт, поэтому пользователям теперь приходится либо развертывать TensorBoard локально, либо использовать его интеграцию с Google Colab для совместного доступа к результатам. Из-за этого популярность TensorBoard неизбежно снизится, а альтернативные инструменты типа MLflow будут активно набирать популярность.

Развертывание

Еще один важный аспект MLOps, необходимый для стабильной работы Data Science проектов, – это перенос среды разработки в продакшен. Docker-контейнеры, широко используемые разработчиками ПО, стали популярны и среди специалистов по данным. Они позволяют сохранить идентичность среды разработки и продакшена, что особенно важно для проектов, где модели машинного обучения разворачиваются как приложения. Docker особенно востребован среди пользователей Python, которым нужно развeртывать сервисы в облаке.

За последние 2 года Docker-контейнеры немного опередели Anaconda в категории «Установка и обновление Python»

Перспективные инструменты для работы с большими данными

Основная проблема при обработке Big Data в Python – большинство библиотек загружают данные в память. Можно было бы просто использовать облачные вычислительные ресурсы с огромным объемом оперативной памяти, но это дорого, а иногда и медленно.

Обычно для работы с очень большими данными, не умещающимися в оперативную память, применяют распределенные вычисления. Данные и задачи распределяются по кластеру, где выполняются параллельно. Это делает обработку данных и машинное обучение масштабируемыми. Самый популярный инструмент для таких задач – Apache Spark. Для работы с ним в Python используется библиотека PySpark.

С выходом Spark 2.0 разработчикам, использующим Spark RDD API, рекомендуется перейти на Spark SQL, так как он работает быстрее и поддерживает выполнение SQL-запросов, что упрощает обработку данных.

PySpark останется самым популярным инструментом для работы с большими данными в 2025 году

Python-конференции все больше ориентируются на Data Science

Все больше новичков осваивают Python именно для Data Science, поэтому и экосистема Python развивается в этом направлении. Многие новые библиотеки теперь ориентированы на задачи анализа данных и машинного обучения. И хотя для специалистов по анализу данных и научным вычислениям проводятся отдельные конференции (PyData и SciPy, например), крупные Python-мероприятия, такие как PyCon и EuroPython, включают все больше секций, докладов и мастер-классов по Data Science.

Как будет развиваться наука о данных в 2025?

Data Science продолжает эволюционировать, и чтобы оставаться востребованным специалистом, важно следить за этими изменениями, осваивать новые инструменты и адаптироваться к технологическим вызовам. Что нас ждет в 2025? Можно выделить несколько вероятных трендов:

Рост автоматизации и AutoML – инструменты, минимизирующие ручную настройку моделей, станут стандартом.
Рост популярности легковесных моделей – с увеличением числа IoT-устройств возрастeт спрос на компактные модели, работающие без облачных вычислений.
Расширение функционала LLM в анализе данных – модели вроде GPT будут глубже интегрироваться в аналитические процессы.
Смена приоритетов в обработке данных – Polars и Spark SQL продолжат вытеснять pandas и традиционные решения.
Повсеместное внедрение MLOps – инструменты вроде MLflow и DVC станут обязательными для всех крупных проектов.
Укрепление позиций Rust и Julia – Python сохранит лидерство, но будет все чаще работать в тандеме с более производительными языками.
Объединение Data Science и No-Code решений – появится больше платформ, позволяющих использовать машинное обучение без программирования, что упростит доступ к технологиям для бизнеса.

Python, несмотря на некоторое снижение его доли в определенных областях, останется ключевой технологией в Data Science и продолжит адаптироваться к новым требованиям и задачам. Его экосистема будет активно развивается, предлагая все более эффективные инструменты для работы с данными. Что же касается перспектив для дата-сайентистов, то очевидно, что успех специалистов в этой области все больше зависит не только от знания конкретных инструментов, но и от умения эффективно комбинировать различные подходы и технологии для решения практических задач.

***

📊 Математика для Data Science: что действительно нужно знать в 2025

Хотите разбираться в математике для DS не хуже выпускников ВМК МГУ? Команда Proglib Academy подготовила онлайн-курс с разбором реальных задач из FAANG-компаний и программой, идеально подходящей для подготовки к ШАД.

Ключевые особенности курса:

47 видеолекций с практическими примерами из реальных проектов
Разбор задач, которые дают на собеседованиях в FAANG-компании
Полное соответствие требованиям для поступления в ШАД

Программа включает:

Базовые разделы для новичков (включая освежение школьной математики)
Математический анализ и линейную алгебру на примерах из ML
Теорию вероятностей и статистику в контексте анализа данных
Практические кейсы по машинному обучению

Интересно, хочу попробовать