深夜,我用 Python 爬取了整个斗图网站,不服来斗
QQ、微信斗图总是斗不过,索性直接来爬斗图网,我有整个网站的图,不服来斗。
废话不多说,选取的网站为斗图啦: http://www.doutula.com/
详细全文:
https://mp.weixin.qq.com/s?__biz=MzI2OTQxMTM4OQ==&mid=2247487106&idx=1&sn=2ecaa7cbfdaacdacbabe2aa50f614ab0&chksm=eae1fbd0dd9672c6aa9d864ca1066a304aef945ff836eeba8bd6404f7068b90222d611a8d1d8&token=1550086199&lang=zh_CN#rd
深夜,我用 Python 爬取了整个斗图网站,不服来斗
这样可以保存图片?
我无法理解你的问题
for one in totals:
img = one.find(‘img’)
try:
sub_url = img.get(‘src’)
except:
pass
finally:
urls = ‘http:’ + sub_url
try:
self.get_img(urls)
except:
pass
这一段错了,你这样的话就变成所有的 url 无论有没有没有 http: 你都加上 http:
这个站好像是 laravel 做的。。。。
这你也想搞个大新闻。。。
另外你这代码质量有待提高
想起来去年我也爬过这个网站的图片 hmmmmm 上面的图讲真有趣
https://i.loli.net/2018/09/17/5b9ea4c8e8eba.png
另外 我还真的不服 :)
其实可以用深度学习生成表情包的。。。。。
30 页也能说整站啊。。我记得这网站有好几百页图,这网站有反爬,我试过用多线程爬到 800 多张就会禁止访问。
哈哈哈哈,我刚入门了 4 个月 python,爬了煎蛋跟表情包网站,蛮有意思的。
另外其实煎蛋妹子图质量很高!(新手的第一个 star 求点击)
https://github.com/TangZhongham/Python-Crawler
V2 的水平真的令人堪忧,爬个这么简单的图片站居然也都能炫耀一下。。。。。。
可以尝试用抓包工具获取煎蛋 APP 的接口,都是 json 数据,更加方便。
哈哈谢谢~我试一下,又能学到东西了
1000+页已经爬完了。



