自动爬取XX网站,下载种子,封面,番号(转载)

[复制链接]
10858|7
手机看帖
扫描二维码
随时随地手机跟帖
gaoyang9992006|  楼主 | 2018-4-14 19:35 | 显示全部楼层 |阅读模式
本文只关心技术,不关心内容,仅用于学习测试

016-1202更新:这部分代码已经完成,实现了下载全部封面,种子URL;改变IP防止服务器封禁等。详细见知乎回答——

http://www.zhihu.com/question/27621722/answer/133705335

代码在回答的最后的github链接中

今天爬取1024核工厂的网站,一开始不设置Header的话,直接返回403,拒接访问,所以必须加上头。

另外在Accept-Encoding这里设置为 identity 的话,本意是设置不允许压缩文件,但是再用postman测试时,发现网站总是返回gzip压缩后的文件。本来以为需要解压的,没想到requests已经完成了这一步骤。

然后bsObj还是乱码,原来是编码问题,网站编码为‘utf-8’,但是调试时输入start_html.encoding,结果是ISO什么解码格式。所以强制‘utf-8’方式解码,完美解决。

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
import requests ##导入requests

headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
            'Accept':"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
            'Accept-Encoding':'gzip',
           }
URL_1024="http://x3.1024lualu.click/pw/thread.php?fid=22"
start_html = requests.get(URL_1024,  headers=headers)
start_html.encoding='utf-8'
bsObj = BeautifulSoup(start_html.text,'html.parser')

下面是爬出的结果:

20161130164521719.png

这是文件夹目录,每个文件夹内有一个TXT文档,文档里记录了子页面的地址。

下一步要从子页面上把torrent和封面下载到这些文件夹中去,加油。


相关帖子

gaoyang9992006|  楼主 | 2018-4-14 19:35 | 显示全部楼层
呵呵,我没有测试,大家可以学习这个操作思路,不要尝试这个坡网站。

使用特权

评论回复
月无缺| | 2018-4-20 23:24 | 显示全部楼层
爬好种子,可以给我一份。。

使用特权

评论回复
gaoyang9992006|  楼主 | 2018-4-28 15:39 | 显示全部楼层
月无缺 发表于 2018-4-20 23:24
爬好种子,可以给我一份。。

我有在线资源,根本不用种子。

使用特权

评论回复
月无缺| | 2018-4-28 19:49 | 显示全部楼层
gaoyang9992006 发表于 2018-4-28 15:39
我有在线资源,根本不用种子。

求在线资源

使用特权

评论回复
gaoyang9992006|  楼主 | 2018-4-28 22:10 | 显示全部楼层

请加入老司机微信群。
先加入21ic官方微信群。

使用特权

评论回复
gaoyang9992006|  楼主 | 2018-4-28 22:10 | 显示全部楼层

或者加傻文的微信也行。

使用特权

评论回复
gaochy1126| | 2018-4-29 20:20 | 显示全部楼层
这样洋文字看不懂呢。XX网站内容果然很丰富呢。

使用特权

评论回复
发新帖 我要提问
您需要登录后才可以回帖 登录 | 注册

本版积分规则

认证:西安公路研究院南京院
简介:主要工作从事监控网络与通信网络设计,以及从事基于嵌入式的通信与控制设备研发。擅长单片机嵌入式系统物联网设备开发,音频功放电路开发。

1889

主题

15608

帖子

197

粉丝