书说明 互联网包含有史以来最有用的一组数据,其中大部分数据可免费公开访问。但是,这些数据不容易使用。它嵌入在网站的结构和风格中,需要谨慎提取。作为一种收集和理解在线信息丰富的手段,网络抓取变得越来越有用。 本书是使用Python 3.x的最新功能从网站上抓取数据的最终指南。在前几章中,您将看到如何从静态网页中提取数据。您将学习如何使用数据库和文件的缓存来节省时间并管理服务器上的负载。在介绍了基础知识之后,您将亲身体验使用浏览器,抓取工具和并发刮板来构建更复杂的抓取工具。 您将使用PyQt和Selenium确定何时以及如何从依赖于JavaScript的网站抓取数据。您将更好地了解如何在受CAPTCHA保护的复杂网站上提交表单。您将了解如何使用Python包(如机械化)自动执行这些操作。您还将学习如何使用Scrapy库创建基于类的刮板,并在真实的网站上实施您的学习。 在本书的最后,您将通过刮板,远程抓取,最佳实践,处理图像以及其他许多相关主题探索测试网站。 你会学到什么 - 用简单的Python编程从网页中提取数据
- 构建并行爬网程序以并行处理网页
- 按照链接抓取网站
- 从HTML中提取功能
- 缓存下载的HTML以供重用
- 比较并发模型以确定最快的爬虫
- 了解如何解析依赖于JavaScript的网站
- 与表单和会话进行交互
|