深夜,我用 Python 爬取了整个斗图网站,不服来斗

QQ、微信斗图总是斗不过,索性直接来爬斗图网,我有整个网站的图,不服来斗。

废话不多说,选取的网站为斗图啦: http://www.doutula.com/

详细全文:
https://mp.weixin.qq.com/s?__biz=MzI2OTQxMTM4OQ==&mid=2247487106&idx=1&sn=2ecaa7cbfdaacdacbabe2aa50f614ab0&chksm=eae1fbd0dd9672c6aa9d864ca1066a304aef945ff836eeba8bd6404f7068b90222d611a8d1d8&token=1550086199&lang=zh_CN#rd
深夜,我用 Python 爬取了整个斗图网站,不服来斗


16 回复

这样可以保存图片?


我无法理解你的问题

for one in totals:
img = one.find(‘img’)
try:
sub_url = img.get(‘src’)
except:
pass
finally:
urls = ‘http:’ + sub_url
try:
self.get_img(urls)
except:
pass


这一段错了,你这样的话就变成所有的 url 无论有没有没有 http: 你都加上 http:

这个站好像是 laravel 做的。。。。

这你也想搞个大新闻。。。

另外你这代码质量有待提高

想起来去年我也爬过这个网站的图片 hmmmmm 上面的图讲真有趣

其实可以用深度学习生成表情包的。。。。。

30 页也能说整站啊。。我记得这网站有好几百页图,这网站有反爬,我试过用多线程爬到 800 多张就会禁止访问。

哈哈哈哈,我刚入门了 4 个月 python,爬了煎蛋跟表情包网站,蛮有意思的。
另外其实煎蛋妹子图质量很高!(新手的第一个 star 求点击)
https://github.com/TangZhongham/Python-Crawler

去年用 java 写过一遍,现在还能用

V2 的水平真的令人堪忧,爬个这么简单的图片站居然也都能炫耀一下。。。。。。

可以尝试用抓包工具获取煎蛋 APP 的接口,都是 json 数据,更加方便。

哈哈谢谢~我试一下,又能学到东西了

1000+页已经爬完了。

回到顶部