Если программирование напоминает волшебство, то веб-скрапинг — это очень сильное колдунство. Написав простую автоматизированную программу, можно отправлять запросы на веб-серверы, запрашивать с них данные, а затем анализировать их и извлекать необходимую информацию. Новое расширенное издание книги знакомит не только с веб-скрапингом, но и поможет собрать любого вида данные в современном Интернете. В части I основное внимание уделено механике веб-скрапинга: как с помощью Python запрашивать информацию с веб-сервера, производить базовую обработку серверного отклика и организовать автоматизированное взаимодействие с сайтами. В части II исследованы более специфичные инструменты и приложения, которые пригодятся при любом сценарии веб-скрапинга. - Разбирайте сложные HTML-страницы. - Разрабатывайте поисковые роботы с помощью фреймворка Scrapy. - Изучайте методы хранения данных, полученных с помощью скрапинга. - Считывайте и извлекайте данные из документов. - Очищайте и нормализуйте плохо отформатированные данные. - Читайте и пишите информацию на естественных языках. - Освойте поиск по формам и логинам. - Изучите скрапинг JavaScript и работу с API. - Используйте и пишите программы для преобразования изображений в текст. - Учитесь обходить скрапинговые ловушки и блокаторы ботов. - Протестируйте собственный сайт с помощью скрапинга.
Политика Конфиденциальности сайта https://sportano.ru:443/33100-sovremennyy-skraping-veb-saytov-s-pomoschu-python-2-/knigi-297/uchebnaya-literatura-315 (именуемый в дальнейшем "сайт")
Владелец сайта (именуемый в дальнейшем "Администрация") обязуется сохранять Вашу конфиденциальность в сети Интернет. Настоящая
Политика Конфиденциальности, рассказывает о том, как собираются, обрабатываются и хранятся Ваши личные данные.
Администрация уделяет большое внимание защите личной информации пользователей.
Пользуюсь этим сайтом, пользователь тем самым дает согласие на применение правил сбора и использования данных, изложенных
в настоящем документе.
Если Вы не согласны с условиями нашей политики конфиденциальности, не используйте этот сайт!
Собираемая информация
Администрация не собирает никакой личной информации о пользователе. Однако, личную информацию пользователя могут собирать
внешние организации (третьи стороны), предоставляющие инструменты для сбора информации о состоянии сайта. По этой причине,
Администрация снимает с себя ответственность по сохранению конфиденциальности данных пользователя. С Условиями Конфиденциальности
третьих сторон, пользователь может ознакомиться на их сайтах.
Прочая информация
Дети любых возрастов могут беспрепятственно пользоваться данным сайтом.