🤖 📈 Data Science в 2025 году: 7 главных трендов
Разработчики JetBrains и Python Software Foundation поделились выводами об основных тенденциях в развитии науки о данных. Давайте разберемся, что значат эти изменения и какие тенденции стоит учитывать, чтобы быть в курсе последних событий в Data Science и машинном обучении в 2025 году.
Каждый год компания JetBrains совместно с Python Software Foundation проводит опрос Python-разработчиков, который помогает понять, какие технологии и подходы становятся популярнее. В последнем опросе появился новый раздел, посвященный Data Science. Это позволило получить более полную картину изменений в области науки о данных и подтвердило важную роль Python (подробнее о трендах в экосистеме – в этой статье).
Использование Python в Data Science
Доля Python в анализе данных и машинном обучении понемногу снижается – очевидно, это связано с появлением соответствующих библиотек на других языках, превосходящих Питон по производительности (в первую очередь – Rust и Julia).
В то же время, Python оказался востребованным в новых направлениях – 27% опрошенных используют Питон для построения и управления потоками данных (Data Engineering), а 8% специалистов используют язык для MLOps (автоматизации развертывания и поддержки моделей).
Обработка данных: pandas остаeтся лидером, но Polars набирает популярность
Обработка данных – ключевой этап в Data Science, и библиотека pandas, которой уже 15 лет, остается самым популярным инструментом для работы с данными. По данным опроса, 77% специалистов, занимающихся анализом и обработкой данных, используют pandas.
Почему pandas по-прежнему в топе:
- У pandas простой и понятный API, который не претерпевает резких изменений.
- В интернете можно найти множество примеров использования pandas – новички быстро осваивают библиотеку и без проблем включаются в работу.
- Проект поддерживается организацией NumFOCUS, что гарантирует его устойчивость и развитие.
Однако недавно появилась библиотека Polars – инструмент, позиционирующий себя как DataFrames нового поколения. Polars предлагает быструю обработку данных благодаря параллельным вычислениям и уверенно набирает популярность:
- В 2023 году была основана компания для поддержки разработки Polars, что ускорило развитие библиотеки.
- В июле 2024 вышла версия 1.0, расширившая совместимость с Hugging Face и NVIDIA RAPIDS.
- Polars, как и pandas, теперь поддерживает встроенную визуализацию данных.
Согласно опросу, уже 10% специалистов в 2023 году использовали Polars. Очевидно, этот показатель вырос в 2024 году, и в 2025 тенденция продолжится.
Другие инструменты для обработки данных
Появился проект Narwhals, который пытается объединить API pandas, Polars и других инструментов. Он был запущен в феврале 2024 года, поэтому пока не попал в список самых популярных решений, но может стать востребованным в будущем.
Кроме того, остаются популярными:
- Apache Spark (16%) – мощный инструмент для распределенной обработки больших данных.
- Dask (7%) – альтернатива Spark, позволяющая работать с данными в параллельном режиме прямо в Python.
Эти инструменты относятся к продвинутым и требуют времени на изучение, но спрос на них будет увеличиваться, так как объемы данных продолжают расти.
Визуализация данных: сможет ли HoloViz Panel обойти Plotly Dash и Streamlit в 2025 году?
Для специалистов по данным важно не только анализировать информацию, но и представлять ее в понятном виде. Для этого существуют интерактивные инструменты визуализации и дашборды.
Популярные библиотеки для дашбордов:
- Plotly Dash. Библиотека Plotly известна в Data Science-сообществе благодаря инструменту ggplot2 (очень популярному среди пользователей R). Dash – это фреймворк для создания интерактивных веб-приложений на Python. Он удобен для тех, кто уже знаком с Plotly. Однако для работы с Dash нужно разбираться в HTML-компонентах, что может быть сложностью для пользователей без опыта в веб-разработке.
- Streamlit – более простой в использовании инструмент по сравнению с Dash. Приобретен компанией Snowflake и активно развивается. Streamlit позволяет быстро создавать дашборды, поддерживает многостраничные приложения, однако менее гибок, чем Plotly Dash.
HoloViz Panel – новый конкурент
С учетом результатов за 2024 год ситуация может измениться: HoloViz Panel, новая библиотека из экосистемы HoloViz, быстро набирает популярность.
Почему Panel может обойти конкурентов:
- Спонсируется NumFocus, что делает ее перспективной.
- Хорошо интегрируется с Jupyter Notebook.
- Поддерживает HTML-отчеты и предлагает готовые шаблоны.
- Обладает гибкими настройками – подходит как новичкам, так и опытным пользователям.
HoloViz Panel пока уступает Plotly Dash и Streamlit, но уже привлекает внимание сообщества PyData. В ближайшие годы библиотека вполне может занять значительную долю рынка инструментов визуализации.
Модели машинного обучения: scikit-learn остается важным инструментом, а PyTorch лидирует в глубоком обучении
С ростом популярности генеративного ИИ и больших языковых моделей (LLM) можно было бы ожидать, что глубокое обучение полностью вытеснит классические методы машинного обучения. Однако это не так: в 2025 году классическое ML и глубокое обучение будут дополнять друг друга, а новые инструменты сделают интеграцию еще удобнее.
Классическое машинное обучение
scikit-learn остается ключевой библиотекой для машинного обучения. Этот инструмент:
- Основан на статистических методах и широко используется для решения задач классификации, регрессии и кластеризации.
- Спонсируется NumFocus с 2020 года, что гарантирует его долгосрочную поддержку.
- В сочетании с SciPy (библиотекой для научных вычислений) является основой традиционной Data Science.
Глубокое обучение
Нейросети и глубокое обучение продолжают набирать популярность. PyTorch – лидер в глубоких нейросетях. Этот фреймворк:
- Работает с динамическими вычислительными графами, что упрощает отладку и эксперименты.
- Использует тензоры, схожие с массивами NumPy, что делает его удобным для Python-разработчиков.
- Подходит для исследований и прототипирования моделей.
TensorFlow – альтернатива для продакшена:
- Использует статические вычислительные графы, что делает его более оптимизированным для масштабируемых проектов.
- Поддерживает различные языки (Python, C++, JavaScript, C#, Swift и др.)
Hugging Face Transformers – библиотека для работы с LLM:
- Предоставляет готовые предобученные модели (например, BERT, GPT) для обработки естественного языка.
- Работает с PyTorch, TensorFlow и JAX.
- В 2025 году ожидается еще больший рост популярности из-за распространения LLM.
Новый тренд в ML: Scikit-LLM
В 2024 году появилась новая библиотека Scikit-LLM, которая объединяет возможности scikit-learn и моделей OpenAI (например, ChatGPT). Она позволяет использовать LLM в анализе текста, и интегрируется со scikit-learn, добавляя возможности для работы с нейросетями.
МLOps – будущее Data Science-проектов
Один из самых важных, но часто упускаемых аспектов проектов в области Data Science – это MLOps (развертывание и поддержка; DevOps для машинного обучения):
- В процессе работы над проектом специалисты по данным должны управлять данными, переобучать модель и контролировать версии как самих моделей, так и используемых данных.
- Когда приложение на основе машинного обучения развертывается в продакшене, важно также следить за его производительностью и анализировать, как оно используется.
Версионирование данных
В последние годы появились инструменты MLOps, специально разработанные для поддержки проектов Data Science. Одной из ключевых проблем, с которой сталкиваются специалисты по данным и инженеры, является версионирование данных. Это особенно важно, если в ваш конвейер обработки данных постоянно поступают новые данные.
Отслеживание экспериментов
Специалисты по данным также должны отслеживать свои эксперименты, поскольку модель машинного обучения будет переобучаться на новых данных и гиперпараметры нужно будет подбирать заново. Для этого важно вести журнал обучения модели и фиксировать результаты экспериментов.
На данный момент самым популярным инструментом для этих целей является TensorBoard. Однако ситуация может вскоре измениться: сервис TensorBoard.dev был закрыт, поэтому пользователям теперь приходится либо развертывать TensorBoard локально, либо использовать его интеграцию с Google Colab для совместного доступа к результатам. Из-за этого популярность TensorBoard неизбежно снизится, а альтернативные инструменты типа MLflow будут активно набирать популярность.
Развертывание
Еще один важный аспект MLOps, необходимый для стабильной работы Data Science проектов, – это перенос среды разработки в продакшен. Docker-контейнеры, широко используемые разработчиками ПО, стали популярны и среди специалистов по данным. Они позволяют сохранить идентичность среды разработки и продакшена, что особенно важно для проектов, где модели машинного обучения разворачиваются как приложения. Docker особенно востребован среди пользователей Python, которым нужно развeртывать сервисы в облаке.
Перспективные инструменты для работы с большими данными
Основная проблема при обработке Big Data в Python – большинство библиотек загружают данные в память. Можно было бы просто использовать облачные вычислительные ресурсы с огромным объемом оперативной памяти, но это дорого, а иногда и медленно.
Обычно для работы с очень большими данными, не умещающимися в оперативную память, применяют распределенные вычисления. Данные и задачи распределяются по кластеру, где выполняются параллельно. Это делает обработку данных и машинное обучение масштабируемыми. Самый популярный инструмент для таких задач – Apache Spark. Для работы с ним в Python используется библиотека PySpark.
С выходом Spark 2.0 разработчикам, использующим Spark RDD API, рекомендуется перейти на Spark SQL, так как он работает быстрее и поддерживает выполнение SQL-запросов, что упрощает обработку данных.
Python-конференции все больше ориентируются на Data Science
Все больше новичков осваивают Python именно для Data Science, поэтому и экосистема Python развивается в этом направлении. Многие новые библиотеки теперь ориентированы на задачи анализа данных и машинного обучения. И хотя для специалистов по анализу данных и научным вычислениям проводятся отдельные конференции (PyData и SciPy, например), крупные Python-мероприятия, такие как PyCon и EuroPython, включают все больше секций, докладов и мастер-классов по Data Science.
Как будет развиваться наука о данных в 2025?
Data Science продолжает эволюционировать, и чтобы оставаться востребованным специалистом, важно следить за этими изменениями, осваивать новые инструменты и адаптироваться к технологическим вызовам. Что нас ждет в 2025? Можно выделить несколько вероятных трендов:
- Рост автоматизации и AutoML – инструменты, минимизирующие ручную настройку моделей, станут стандартом.
- Рост популярности легковесных моделей – с увеличением числа IoT-устройств возрастeт спрос на компактные модели, работающие без облачных вычислений.
- Расширение функционала LLM в анализе данных – модели вроде GPT будут глубже интегрироваться в аналитические процессы.
- Смена приоритетов в обработке данных – Polars и Spark SQL продолжат вытеснять pandas и традиционные решения.
- Повсеместное внедрение MLOps – инструменты вроде MLflow и DVC станут обязательными для всех крупных проектов.
- Укрепление позиций Rust и Julia – Python сохранит лидерство, но будет все чаще работать в тандеме с более производительными языками.
- Объединение Data Science и No-Code решений – появится больше платформ, позволяющих использовать машинное обучение без программирования, что упростит доступ к технологиям для бизнеса.
Python, несмотря на некоторое снижение его доли в определенных областях, останется ключевой технологией в Data Science и продолжит адаптироваться к новым требованиям и задачам. Его экосистема будет активно развивается, предлагая все более эффективные инструменты для работы с данными. Что же касается перспектив для дата-сайентистов, то очевидно, что успех специалистов в этой области все больше зависит не только от знания конкретных инструментов, но и от умения эффективно комбинировать различные подходы и технологии для решения практических задач.
📊 Математика для Data Science: что действительно нужно знать в 2025
Хотите разбираться в математике для DS не хуже выпускников ВМК МГУ? Команда Proglib Academy подготовила онлайн-курс с разбором реальных задач из FAANG-компаний и программой, идеально подходящей для подготовки к ШАД.
Ключевые особенности курса:
- 47 видеолекций с практическими примерами из реальных проектов
- Разбор задач, которые дают на собеседованиях в FAANG-компании
- Полное соответствие требованиям для поступления в ШАД
Программа включает:
- Базовые разделы для новичков (включая освежение школьной математики)
- Математический анализ и линейную алгебру на примерах из ML
- Теорию вероятностей и статистику в контексте анализа данных
- Практические кейсы по машинному обучению