首页
论坛
外包
下载
专栏
专栏首页
- 通信技术
- 显示光电
- 单片机
- 测试测量
- 智能硬件
- 汽车电子
- 消费电子
- 工业控制
- 医疗电子
- 电路图
- 物联网
- 模拟
- 专访
- 电源
- 芯闻号
- 嵌入式
- 技术学院
- 公众号精选
- 厂商动态
- 新基建
- 中国芯
- 端侧AI
Datasheet
公开课
更多

阅读

21ic专访

编辑视点

专题

会展

高端访谈

新基建

技术

通信技术

显示光电

单片机

测试测量

智能硬件

汽车电子

消费电子

工业控制

医疗电子

开发板

物联网

模拟

电源

嵌入式

资讯

新品

应用

技术专访

基础知识

中国芯

互动

论坛

外包

招聘

课程

公开课

在线研讨会

TI在线培训

资源

下载

电路图

Datasheet

在线计算器

开发板试用

厂商

登录|注册

21ic电子技术开发论坛 › 综合技术交流 › 电子技术交流论坛 › 入门怎么学python？

发新帖

我要提问

入门怎么学python？

365|0

手机看帖

扫描二维码
随时随地手机跟帖

电梯直达

跳转到指定楼层

楼主

资深技术员

楼主 | 2022-4-22 13:50 | 只看该作者 |只看大图回帖奖励

回帖奖励

|倒序浏览 |阅读模式

python, 入门学习

要想学Python首先请问：我们所爬的数据，是从哪里来的呢?

企业产生的用户数据：百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数;

数据平台购买数据：数据堂、国云数据市场、贵阳大数据交易所;

政府/机构公开的数据：中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克;

数据管理咨询公司：麦肯锡、埃森哲、艾瑞咨询

爬取网络数据：如果需要的数据市场上没有，或者不愿意购买，那么可以选择招/做一名爬虫工程师，自己动手丰衣足食。

那怎么抓取页面数据?

网页三大特征：

网页都有自己唯一的URL（统一资源定位符）来进行定位；

网页都使用HTML （超文本标记语言）来描述页面信息；

网页都使用HTTP/HTTPS（超文本传输协议）协议来传输HTML数据；

爬虫的设计思路有以下总结：

首先确定需要爬取的网页URL地址。

通过HTTP/HTTP协议来获取对应的HTML页面。

提取HTML页面里有用的数据：

a. 如果是需要的数据，就保存起来。

b. 如果是页面里的其他URL，那就继续执行第二步。

当然最后给上点Python的干货：用Python请求一个网页？

① 安装requests

打开cmd,在命令行中输入指令【pip install requests】并回车

② 检测是否安装成功

在命令行中输入【python】，敲击回车，进入python环境。

再输入指令【import requests】并回车：如果不报错，则说明已安装。

③ 尝试使用requests请求网页

打开PyCharm，创建一个项目

在该项目下创建一个PY文件，输入以下代码

【

import requests

url='http://www.baidu.com'

respone=requests.get(url)#请求百度首页

print(respone.status_code)#打印请求结果的状态码

print(respone.content)#打印请求到的网页源码

】

运行得到结果：

蓝框圈出来的是状态码，200说明请求正常。红框里的便是网页源码。

如何用Python解析网页源码？

① 安装BeautifulSoup

命令行中输入指令【pip install beautifulsoup4】并回车，安装bs4：

② 检测是否安装成功

评论回复赏

相关下载

相关帖子

发新帖

我要提问

hqyjcdzx

143 主题	161 帖子	1 粉丝

关闭 热门推荐

扫码关注
21ic 官方微信
扫码关注
嵌入式微处理器
扫码关注
21ic项目外包
扫码关注
21ic视频号
扫码关注
21ic抖音号

本站介绍 | 申请友情链接 | 欢迎投稿 | 隐私声明 | 广告业务 | 网站地图 | 联系我们 | 诚聘英才 | 论坛帮助

京ICP备11013301号

京公网安备 11010802024343号

快速回复 在线客服 返回列表 返回顶部