自动爬取XX网站，下载种子，封面，番号（转载）

发表于 2018-4-14 19:35

本文只关心技术，不关心内容，仅用于学习测试

016-1202更新：这部分代码已经完成，实现了下载全部封面，种子URL；改变IP防止服务器封禁等。详细见知乎回答——

http://www.zhihu.com/question/27621722/answer/133705335

代码在回答的最后的github链接中

今天爬取1024核工厂的网站，一开始不设置Header的话，直接返回403，拒接访问，所以必须加上头。

另外在Accept-Encoding这里设置为 identity 的话，本意是设置不允许压缩文件，但是再用postman测试时，发现网站总是返回gzip压缩后的文件。本来以为需要解压的，没想到requests已经完成了这一步骤。

然后bsObj还是乱码，原来是编码问题，网站编码为‘utf-8’，但是调试时输入start_html.encoding，结果是ISO什么解码格式。所以强制‘utf-8’方式解码，完美解决。

复制

#!/usr/bin/env python3

# -*- coding: utf-8 -*-

from bs4 import BeautifulSoup

import requests ##导入requests



headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",

            'Accept':"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",

            'Accept-Encoding':'gzip',

           }

URL_1024="http://x3.1024lualu.click/pw/thread.php?fid=22"

start_html = requests.get(URL_1024,  headers=headers)

start_html.encoding='utf-8'

bsObj = BeautifulSoup(start_html.text,'html.parser')

下面是爬出的结果：

这是文件夹目录，每个文件夹内有一个TXT文档，文档里记录了子页面的地址。

下一步要从子页面上把torrent和封面下载到这些文件夹中去，加油。

发表于 2018-4-14 19:35

呵呵，我没有测试，大家可以学习这个操作思路，不要尝试这个坡网站。

发表于 2018-4-20 23:24

爬好种子，可以给我一份。。

发表于 2018-4-28 15:39

月无缺发表于 2018-4-20 23:24
爬好种子，可以给我一份。。

我有在线资源，根本不用种子。

发表于 2018-4-28 19:49

gaoyang9992006 发表于 2018-4-28 15:39
我有在线资源，根本不用种子。

求在线资源

发表于 2018-4-28 22:10

月无缺发表于 2018-4-28 19:49
求在线资源

请加入老司机微信群。
先加入21ic官方微信群。

发表于 2018-4-28 22:10

月无缺发表于 2018-4-28 19:49
求在线资源

或者加傻文的微信也行。

发表于 2018-4-29 20:20

这样洋文字看不懂呢。XX网站内容果然很丰富呢。

自动爬取XX网站，下载种子，封面，番号（转载）

相关帖子

浏览过的版块

核心会员奖章

坚毅之洋流

十世金身

技术导师奖章

技术领袖奖章