🐍 Самоучитель по Python для начинающих. Часть 17: Основы скрапинга и парсинга

Научимся извлекать данные из статического и динамического контента с помощью регулярных выражений, XPath, BeautifulSoup, MechanicalSoup и Selenium. В конце статьи – код 10 скриптов для скрапинга данных и изображений с Wikipedia, Habr, LiveLib, IMDb и TIOBE.
🐍 Самоучитель по Python для начинающих. Часть 17: Основы скрапинга и парсинга

Веб-скрапинг – это процесс автоматического сбора информации из онлайн-источников. Для выбора нужных сведений из массива «сырых» данных, полученных в ходе скрапинга, нужна дальнейшая обработка – парсинг. В процессе парсинга выполняются синтаксический анализ, разбор и очистка данных. Результат парсинга – очищенные, упорядоченные, структурированные данные, представленные в формате, понятном конечному пользователю (или приложению).

Скрипты для скрапинга создают определенную нагрузку на сайт, с которого они собирают данные – могут, например, посылать чрезмерное количество GET запросов к серверу. Это одна из причин, по которой скрапинг относится к спорным видам деятельности. Чтобы не выходить за рамки сетевого этикета, необходимо всегда соблюдать главные правила сбора публичной информации:

  • Если на сайте есть API, нужно запрашивать данные у него.
  • Частота и количество GET запросов должны быть разумными.
  • Следует передавать информацию о клиенте в User-Agent.
  • Если на сайте есть личные данные пользователей, необходимо учитывать настройки приватности в robots.txt.
«Программирование на Python» от Proglib Academy!
Хочешь стать Python-разработчиком? Тебя ждут 30 практических уроков по веб-разработке (Flask), аналитике (Pandas), работе с базами данных (SQLite, SQLAlchemy), скрапингу и автоматизации. Реальные задачи, интерактивные вебинары с опытными разработчиками и финальный проект для твоего портфолио. Получи востребованные навыки и начни карьеру! Купить полный курс →

Комментарии

ВАКАНСИИ

Добавить вакансию
Senior Marketing Analyst
по итогам собеседования

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ