admin 21 января 2017

12 библиотек для работы с данными в Python

Обзор часто используемых на практике библиотек, которые работают с данными на Python, помимо таких популярных, как Pandas, Numpy, Scipy, Scikit-learn и Matplotlib.

Все мы знаем, что Python хорош для анализа данных, но мало кто знает, почему это так. Первый релиз Python был в 1989 году, и за это время для него была разработана целая экосистема, в которой можно просто и быстро работать с данными. И для этого есть огромное множество библиотек, не считая таких популярных, как Pandas, Numpy, Scipy, Scikit-Learn и Matplotlib. Итак, начнем по порядку.

1. Чтение данных

Feather

предназначена для чтения и записи данных с устройств;
быстрый и удобный бинарный формат данных;
быстро считывает большие массивы данных;
отлично подходит для перевода данных из одного языка в другой;
используется не только в Python, но также и в R.

Ibis

обеспечивает доступ между локальным окружение в Python и удаленными хранилищами, как Hadoop, по всем правилам Zen of Python;
полностью интегрирован с экосистемой Python.

ParaText

это быстрый способ получения данных с диска в оперативную память;
интегрирован с библиотекой Pandas;
быстрое чтение файлов в формате CSV размером до 2.5GB;
удобная реализация чтения файлов в параллельных процессах на многоядерных машинах.

bcolz

Эта библиотека лучше всего подходит для работы с данными, которые занимают больше места, чем может позволить ваша оперативная память.

файлы хранятся в сжатом формате;
позволяет экономить оперативную память;
интеграция с Pandas.

2. Визуализация данных

Altair

похож на Matplotlib, но более удобен в использовании;
имеет очень хороший и понятный API;
создает красивые и презентабельные графики;
интегрирован с Pandas;
в основном создает только статические графики.

Bokeh

отличная визуализация для Web;
реализация простых и красивых графиков;
похож на D3.js, но проще в использовании;
имеет огромное количество различных графиков.

Geoplotlib

одна из самых популярных библиотек для управления интерактивными картами;
позволяет просто и быстро создавать карты;
на вход принимает список [название, широта, долгота].

3. Преобразование данных

Blaze

Numpy для больших данных;
переводит Pandas/Numpy синтаксис в формат, понятный для больших вычислительных систем;
код, написанный по всем канонам Python и способный запрашивать данные в различных системах их хранения;
прост в обработке и преобразовании данными.

xarray

обработка многомерных данных как в Pandas;
общепринятый формат для обработки данных Data Frame.

Dask

эта библиотека позволяет эффективно организовывать параллельные вычисления;
оптимизация вычислений с помощью динамического планирования задач;
коллекции больших данных хранятся как параллельные массивы/списки и позволяют работать с ними через Numpy/Pandas.

4. Моделирование

Keras

высокоуровневый интерфейс для таких библиотек, как Theano и TensorFlow;
очень много понятных новичкам уроков в интернете;
библиотека основана на Deep Learning.

PyMC3

в основе этой библиотеки лежит вероятностное программирование;
хорошая реализация Байесового статического моделирования;
содержит в себе лучшие алгоритмы, разработанные академическим сообществом.

Эти многие и другие библиотеки в Python позволяют аналитикам и экспертам машинного обучения работать с большими объемами текстовых данных при использовании минимальных аппаратных затрат и времени.

Другие статьи по теме

10 скрытых особенностей Python

12 библиотек для работы с данными в Python

1. Чтение данных

Feather

Ibis

ParaText

bcolz

2. Визуализация данных

Altair

Bokeh

Geoplotlib

3. Преобразование данных

Blaze

xarray

Dask

4. Моделирование

Keras

PyMC3

Другие статьи по теме

МЕРОПРИЯТИЯ

Курс «AgentOps: AI-агенты для backend-разработчиков»

Комментарии

ВАКАНСИИ

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ

ТОП-15 книг по Python: от новичка до профессионала

DeepFake-туториал: создаем собственный дипфейк в DeepFaceLab

Пишем свою нейросеть: пошаговое руководство

1. Чтение данных

2. Визуализация данных

3. Преобразование данных

4. Моделирование

PyMC3

Другие статьи по теме

Курс «AgentOps: AI-агенты для backend-разработчиков»

ТОП-15 книг по Python: от новичка до профессионала

DeepFake-туториал: создаем собственный дипфейк в DeepFaceLab

Пишем свою нейросеть: пошаговое руководство

Подтверждение

Авторизация

Письмо отправлено

Во время авторизации произошла ошибка

Что не так с этим материалом?

Что не так с этим комментарием?

Что не так с этим тестом?

Что не так с этой вакансией?

Что не так с этим мероприятием?

Какой баг вы нашли?

Заполните, пожалуйста, форму, чтобы мы могли с Вами связаться