要想学Python首先请问:我们所爬的数据,是从哪里来的呢? 企业产生的用户数据:百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数; 数据平台购买数据:数据堂、国云数据市场、贵阳大数据交易所; 政府/机构公开的数据:中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克; 数据管理咨询公司:麦肯锡、埃森哲、艾瑞咨询 爬取网络数据:如果需要的数据市场上没有,或者不愿意购买,那么可以选择招/做一名爬虫工程师,自己动手丰衣足食。 那怎么抓取页面数据?网页三大特征: 网页都有自己唯一的URL(统一资源定位符)来进行定位; 网页都使用HTML (超文本标记语言)来描述页面信息; 网页都使用HTTP/HTTPS(超文本传输协议)协议来传输HTML数据; 爬虫的设计思路有以下总结:首先确定需要爬取的网页URL地址。 通过HTTP/HTTP协议来获取对应的HTML页面。 提取HTML页面里有用的数据: a. 如果是需要的数据,就保存起来。 b. 如果是页面里的其他URL,那就继续执行第二步。 当然最后给上点Python的干货:用Python请求一个网页?① 安装requests 打开cmd,在命令行中输入指令【pip install requests】并回车 ② 检测是否安装成功 在命令行中输入【python】,敲击回车,进入python环境。 再输入指令【import requests】并回车:如果不报错,则说明已安装。 ③ 尝试使用requests请求网页 打开PyCharm,创建一个项目 在该项目下创建一个PY文件,输入以下代码 【 import requests url='http://www.baidu.com' respone=requests.get(url)#请求百度首页 print(respone.status_code)#打印请求结果的状态码 print(respone.content)#打印请求到的网页源码 】 运行得到结果:
蓝框圈出来的是状态码,200说明请求正常。红框里的便是网页源码。 如何用Python解析网页源码? ① 安装BeautifulSoup 命令行中输入指令【pip install beautifulsoup4】并回车,安装bs4: ② 检测是否安装成功
|