admin 21 января 2017

12 библиотек для работы с данными в Python

Хочешь уверенно проходить IT-интервью?

Готовься к IT-собеседованиям уверенно с AI-тренажёром T1!

Мы понимаем, как сложно подготовиться: стресс, алгоритмы, вопросы, от которых голова идёт кругом. Но с AI тренажёром всё гораздо проще.

💡 Почему Т1 тренажёр — это мастхэв?

  • Получишь настоящую обратную связь: где затык, что подтянуть и как стать лучше
  • Научишься не только решать задачи, но и объяснять своё решение так, чтобы интервьюер сказал: "Вау!".
  • Освоишь все этапы собеседования, от вопросов по алгоритмам до диалога о твоих целях.

Зачем листать миллион туториалов? Просто зайди в Т1 тренажёр, потренируйся и уверенно удиви интервьюеров. Мы не обещаем лёгкой прогулки, но обещаем, что будешь готов!

Реклама. ООО «Смарт Гико», ИНН 7743264341. Erid 2VtzqwP8vqy


Обзор часто используемых на практике библиотек, которые работают с данными на Python, помимо таких популярных, как Pandas, Numpy, Scipy, Scikit-learn и Matplotlib.

Все мы знаем, что Python хорош для анализа данных, но мало кто знает, почему это так. Первый релиз Python был в 1989 году, и за это время для него была разработана целая экосистема, в которой можно просто и быстро работать с данными. И для этого есть огромное множество библиотек, не считая таких популярных, как Pandas, Numpy, Scipy, Scikit-Learn и Matplotlib. Итак, начнем по порядку.

1. Чтение данных

Feather

  • предназначена для чтения и записи данных с устройств;
  • быстрый и удобный бинарный формат данных;
  • быстро считывает большие массивы данных;
  • отлично подходит для перевода данных из одного языка в другой;
  • используется не только в Python, но также и в R.

Ibis

  • обеспечивает доступ между локальным окружение в Python и удаленными хранилищами, как Hadoop, по всем правилам Zen of Python;
  • полностью интегрирован с экосистемой Python.

ParaText

  • это быстрый способ получения данных с диска в оперативную память;
  • интегрирован с библиотекой Pandas;
  • быстрое чтение файлов в формате CSV размером до 2.5GB;
  • удобная реализация чтения файлов в параллельных процессах на многоядерных машинах.

bcolz

Эта библиотека лучше всего подходит для работы с данными, которые занимают больше места, чем может позволить ваша оперативная память.

  • файлы хранятся в сжатом формате;
  • позволяет экономить оперативную память;
  • интеграция с Pandas.

2. Визуализация данных

Altair

  • похож на Matplotlib, но более удобен в использовании;
  • имеет очень хороший и понятный API;
  • создает красивые и презентабельные графики;
  • интегрирован с Pandas;
  • в основном создает только статические графики.

Bokeh

  • отличная визуализация для Web;
  • реализация простых и красивых графиков;
  • похож на D3.js, но проще в использовании;
  • имеет огромное количество различных графиков.

Geoplotlib

  • одна из самых популярных библиотек для управления интерактивными картами;
  • позволяет просто и быстро создавать карты;
  • на вход принимает список [название, широта, долгота].

3. Преобразование данных

Blaze

  • Numpy для больших данных;
  • переводит Pandas/Numpy синтаксис в формат, понятный для больших вычислительных систем;
  • код, написанный по всем канонам Python и способный запрашивать данные в различных системах их хранения;
  • прост в обработке и преобразовании данными.

xarray

  • обработка многомерных данных как в Pandas;
  • общепринятый формат для обработки данных Data Frame.

Dask

  • эта библиотека позволяет эффективно организовывать параллельные вычисления;
  • оптимизация вычислений с помощью динамического планирования задач;
  • коллекции больших данных хранятся как параллельные массивы/списки и позволяют работать с ними через Numpy/Pandas.

4. Моделирование

Keras

  • высокоуровневый интерфейс для таких библиотек, как Theano и TensorFlow;
  • очень много понятных новичкам уроков в интернете;
  • библиотека основана на Deep Learning.

PyMC3

  • в основе этой библиотеки лежит вероятностное программирование;
  • хорошая реализация Байесового статического моделирования;
  • содержит в себе лучшие алгоритмы, разработанные академическим сообществом.

Эти многие и другие библиотеки в Python позволяют аналитикам и экспертам машинного обучения работать с большими объемами текстовых данных при использовании минимальных аппаратных затрат и времени.

Другие статьи по теме

10 скрытых особенностей Python

Комментарии

ВАКАНСИИ

Добавить вакансию
Golang-разработчик
Пермь, по итогам собеседования
Hotel Search Team Lead (Golang)
по итогам собеседования

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ